


Jife is tough, 
But wireshark makes it easy. 
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初试 锋芒 
从 一 道 面 试题 开始 说 起 


我 每 次 当面 试 官 ， 都 要 伪装 成 无 所 不 知 的 大 牛 。 

这 当然 是 无 奈 的 选择 一 现在 每 封 简历 都 那么 耀眼 ， 不 装 一 下 简直 
镇 不 住 场面 。 比 如 尚未 毕业 的 本 科 生 ， 早 就 拿 下 CCIE 认 证 ; 留 欧 两 年 
的 海归 ， 已 然 精通 英 、 法 、 德 三 门 外 语 ， 最 厉害 的 一 位 应 聘 者 ， 研 究 生 
阶段 就 在 国际 上 首次 提出 了 计算 机 和 生物 学 的 跨 界 理论 .….. 可 怜 我 这 个 
老实 人 在 一 开场 还 能 装 装 ， 到 了 技术 环节 就 忍 不 住 提问 基础 知识 ， 一 下 





子 把 气氛 从 学 术 殿 堂 拉 到 建筑 工地 。 不 过 就 是 这 些 最 基础 的 问题 ， 却 常 
常 把 简历 精英 们 难 住 。 本 文 要 介绍 的 便 是 其 中 的 一 道 。 
问题 :两 台 服务 器 A 和 B 的 网 络 配置 如 下 《〈 见 图 1) ，B 的 子 网 掩 码 
本 应 该 是 255.255.255.0， 被 不 小 心 配 成 了 255.255.255.224。 它 们 还 能 正 
常 通信 吗 ? 
服务 器 服务 吕 B: 





很 多 应 聘 者 都 会 沉思 良久 【他们 一 定 在 心里 把 我 加 了 很 多 遍 了 ) ， 
然后 给 出 下 面 这 些 形形色色 的 答案 。 

答案 1; “A 和 B 不 能 通信 ， 因 为 .…… 如 果 这 样 都 行 的 话 ， 子 网 掩 码 
还 有 什么 用 ? ”( 这 位 的 反 证 法 听 上 去 很 有 道理 ! ) 

答案 2: “A 和 B 能 通信 ， 因 为 它们 可 以 通过 ARP 广 播 获 得 对 方 的 
MAC 地 址 。”( 那 子 网 掩 码 还 有 什么 用 ? 楼 上 的 反 证 法 用 来 反驳 这 位 正 
好 。) 

答案 3:“A 和 B 能 通信 ， 但 所 有 包 都 要 通过 默认 网 关 192.168.26.2 转 
发 。”( 请 问 这 么 复杂 的 结果 你 是 怎么 想到 的 ? ) 

答案 4: “A 和 B 不 能 通信 ， 因 为 ARP 不 能 跨 子 网 。”( 这 个 答案 听 上 
去 真 像 是 经 过 认真 思考 的 。) 

以 上 哪个 答案 是 正确 的 ? 还 是 都 不 正确 ? 如 果 这 是 你 第 一 次 听 到 这 
道 题 ， 不 妨 停 下 来 思考 一 下 。 

真相 只 有 一 个 ， 应 聘 者 的 答案 却 是 五 花 八 门 。 可 见 对 网 络 概念 的 理 
解 不 容 含 糊 ， 和 否则 差 之 毫 厘 ， 廖 以 千里 。 要 知道 ， 这 还 只 是 基本 的 路 由 
交换 知识 ， 假 如 涉及 复杂 概念 ， 结 果 就 更 不 用 说 了 。 

问题 是 即便 我 们 对 者 教材 咬文嚼字 ， 也 不 一 定 能 悟 出 正确 答案 。 这 
个 时 候 ， 就 可 以 借助 Wireshark 的 抓 包 与 分 析 功能 了 。 我 手头 就 有 两 台 
Windows 服 务 器 ， 已 经 按照 面试 题 配 好 网 络 。 如 果 你 以 前 没有 用 过 
Wireshark， 就 开始 第 一 次 亲密 接触 吧 。 

1， 从 http://www.wireshark.org/download.html 免 费 下 载 安装 包 ， 并 在 
服务 器 B 上 装 好 〈 把 所 有 可 选项 都 装 上 ) - 

2.， 启动 Wireshark 软 件 ， 单 击 菜单 栏 上 的 Capture， 再 单 击 Interfaces 
按钮 〈 见 图 2) 。 























3， 服 务 器 B 上 的 所 有 | 
E 要 抓 包 的 网 卡 上 单 击 Start 


卡 都 会 显示 在 弹出 的 新 窗口 上 《〈 见 图 3) ， 
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4. 在 服务 器 B 上 ping ”A 的 IP 地 址 
产生 的 网 络 包 已 经 被 Wireshark 捕 获 。 



















和 单 击 Stop。 
6. 在 Wireshark 的 菜单 栏 上 ， 单 击 File， 再 单 击 Save， 把 网 络 包 保存 
到 硬盘 上 ( 非 ， 但 是 个 好 习惯 

7. 收集 每 台 设备 的 MAC 地 址 以 备 分 析 。 





服务 器 A: 00:0c:29:0c:22:10 
服务 器 B: 00:0c:29:51:f1:7b 


“默认 网 关 : 00:50:56:e7:2f:88 


现在 可 以 分 析 网 络 包 了 。 如 图 5 所 示 ，Wireshark 的 界面 非常 直观 。 
最 上 面 是 Packet List 窗 口 ， 它 列 出 了 所 有 网 络 包 。 在 Packet List 中 选 定 的 
网 络 包 会 详细 地 显示 在 中 间 的 Packet 。“ Details 窗 口中 。 由 于 我 在 Packet 
List 中 选 定 的 是 3 号 包 ， 所 以 图 5 中 看 到 的 就 是 Frame 3 的 详情 。 最 底下 是 
了 Packet Bytes Details 窗 口 ， 我 们 一 般 不 会 用 到 它 。 









































接 下 来 看 看 每 个 包 都 做 了 些 什么 。 
1 号 包 〈 见 图 6) : 








服务 器 B 通 过 ARP 广 播 查询 默认 网 关 192.168.26.2 的 MAC 地 址 。 为 什 
么 我 ping 的 是 服务 器 A 的 也 ，B 却 去 查询 默认 网 关 的 MAC 地 址 呢 ? 这 是 
因为 B 根 据 自己 的 子 网 掩 码 ， 计 算出 A 属 于 不 同 子 网 ， 跨 子 网 通信 需要 
默认 网 关 的 转发 。 而 要 和 默认 网 关 通 信 ， 就 需要 获得 其 MAC 地 址 。 

2 号 包 〈 见 图 7) : 


= 


























默认 网 关 192.168.26.2 向 B 回 复 了 自己 的 MAC 地 址 。 为 什么 这 些 
MAC 地 址 的 开头 明明 是 “00:50:56" 或 者 "00:0c:29"，Wireshark 上 显示 出 
来 却 都 是 “Vmware”? 这 是 因为 MAC 地 址 的 前 3 个 字 节 表示 厂商 。 而 
00:50:56 和 00:0c:29 都 被 分 配给 Vmware 公 司 。 这 是 全 球 统一 的 标准 ， 所 
以 Wireshark 干 脆 显 示 出 厂商 名 了 。 

3 号 包 ( 见 图 8》: 


总 









B 发 出 ping 包 ， 指 定 Destination IP 为 A， 即 192.168.26.129。 但 
Destination MAC 却 是 默认 网 关 的 00:50:56:e7:2f:88 (Destination MAC 可 
以 在 图 8 中 的 Packet Details 中 看 到 ) 。 这 表明 B 和 希望 默认 网 关 把 包 转发 给 
A。 至 于 默认 网 关 有 没有 转发 ， 我 们 目前 无 从 得 知 ， 除 非 在 网 关上 也 抓 
个 包 。 

4 号 包 ( 见 图 9》: 











B 收 到 了 A 发 出 的 ARP 广 播 ， 这 个 广播 查询 的 是 B 的 MAC 地 址 。 这 
是 因为 在 A 看 来 ，B 属 于 相同 子 网 ， 同 子 网 通信 无 需 默认 网 关 的 参与 ， 
只 要 通过 ARP 获 得 对 方 MAC 地 址 就 行 了 。 这 个 包 也 表明 默认 网 关 成 功 
地 把 B 发 出 的 ping 请 求 转发 给 A 了 ， 和 否则 A 不 会 无 缘 无 故 尝试 和 B 通 信 。 
5 号 包 ( 见 图 10》: 








B 回 复 了 A 的 ARP 请 求 ， 把 自己 的 MAC 地 址 告诉 A。 这 说 明 B 在 执行 


ARP 回 复 时 并 不 考虑 子 网 。 虽 然 ARP 请 求 来 自 其 他 子 网 的 中， 但 也 照样 
回复 。 
6 号 包 ( 见 图 11): 





图 11 

B 终 于 收 到 了 A 的 ping 回 复 。 从 MAC 地 址 00:0c:29:0c:22:10 可 以 看 
出 ， 这 个 包 是 从 A 直接 过 来 的 ， 而 不 是 通过 默认 网 关 的 转发 。 
7、8、9、10 号 包 ( 见 图 12》: 








都 是 重复 的 ping 请 求 和 ping 回 复 。 因 为 A 和 B 都 已 经 知道 对 方 的 联系 
方式 , 所 必要 再 发 ARP 了 。 

分 析 完 这 几 个 包 ， 答 案 出 来 了 。 原 来 通信 过 程 是 这 样 的 ，B 先 把 
ping 请 求 交 给 默认 网 关 ， 默 认 网 关 再 转发 给 A。 而 A 收 到 请 求 后 直接 把 
ping 回 复 给 B， 形 成 图 13 所 示 的 三 角形 环 路 。 不 知道 你 答对 了 吗 ? 

通过 这 道 题 ， 不 知道 你 是 否 已 经 感受 到 了 Wireshark 的 神奇 ? 如 果 有 
兴趣 进 步 练习 ， 不 妨 也 拱 个 环境 ， 把 这 道 题 里 A 和 B 的 掩 码 互 换 一 
下 。 看 看 这 次 还 能 ping 通 吗 ? 如 果 不 能 ， 原 因 又 在 哪里 ? 
















ping 请 求 


ping 回 复 





图 13 


其 实 做 题 对 Wireshark 只 是 大 材 小 用 ， 它 还 可 以 用 于 学 习 复杂 的 协 
议 ， 或 者 解决 隐蔽 的 难题 。 在 下 文中 ， 我 们 将 体验 Wireshark 在 实际 工作 
中 的 应 用 。 


小 试 牛刀 : 一 个 简单 的 应 用 实例 


我 的 老板 气 宇 轩 昂 ， 目 光 笃 定 ， 在 人 群 中 颇 有 大 将 风范 〈 当 然 是 老 
板 娘 不 在 场 的 时 候 ) 。 有 一 年 我 们 在 芝加哥 流落 街头 ， 也 没 见 他 皱 过 眉 
头 。 不 过 前 几 天 ， 这 位 气 场 型 领导 竟然 板 着 脸 跑 过 来 ， 说 赶紧 帮忙 ， 有 
位 同事 被 客户 骂 惨 了 。 我 当然 不 能 拒绝 帮 (yao) 助 (qiu) 同 (jia) 事 
(xin) 的 机 会 ， 立 即 加 入 电话 会 议 

原来 事情 是 这 样 的 : 客户 不 小 心 重启 了 服务 器 A， 然后 它 就 再 也 无 
法 和 服务 器 B 通 信 了 。 由 于 这 两 台 服 务 器 之 间 传输 的 是 关键 数据 ， 现 场 
工程 师 又 一 时 查 不 出 原因 ， 所 以 客户 异常 恼火 。 

问题 听 起 来 并 不 复杂 ， 考 虑 到 起 因 是 服务 器 A 的 重启 ， 所 以 我 收集 
了 它 的 网 络 配置 〈 见 图 1) 。 


TreeteA ~]# ifconfig |egrep "Haddrlinet addr 
ethe Link encap:Ethernet Miaddr 89; 





























ethi 


ethz Link encap:Ethernet Maddr ee: : 
inet addr:192,168.186.131 Bcast:192.168.186.255 Nask:255.255.255.6 
[root@a ~]# route |grep default 
efault 192.168.26.2 。 255.255,255.8 U6 0 8 eethe 
图 1 


服务 器 B 的 网 络 配置 则 简单 很 多 ， 只 有 一 个 耳 地 址 
192.168.182.131， 子 网 掩 码 也 是 255.255.255.0。 

当 我 们 在 A 上 ping B 时 ， 网 络 包 应 该 怎么 走 ? 阅读 以 下 内 容 之 前 ， 
读者 不 妨 先 停 下 来 思考 一 下 。 


一 般 情 况 下 ， 像 A 这 类 多 IP 的 服务 器 是 这 样 配 路 由 的 假如 自身 有 
一 个 IP 和 对 方 在 同一 子 网 ， 就 从 这 个 JP 直接 发 包 给 对 方 。 假 如 没有 一 个 
卫 和 对 方 同 子 网 ， 就 走 默 认 网 关 。 在 这 个 环境 中 ，A 的 3 个 了 显然 都 与 B 
属于 不 同 子 网 ， 那 就 应 该 走 默认 网 关 了 。 会 不 会 是 A 和 默认 网 关 的 通信 
出 问题 了 昵 ? 我 从 A 上 ping 了 一 下 网 关 ， 结 果 却 是 通 的。 难道 是 因为 网 
关 没 有 把 包 转发 出 去 ? 或 者 是 ping 请 求 已 经 被 转发 到 B 了 ， 但 ping 回 复 
在 路 上 丢失 ? 己 已 经 走 进 死胡同 。 每 当 到 了 这 个 时 候 ， 我 就 会 
想到 最 值得 信赖 的 队友 一 一 Wireshark。 

我 分 别 在 eth0、ethl1、 和 eth2 上 抓 了 包 。 最 先 查看 的 是 连接 默认 网 关 
的 eth0， 出 乎 意料 的 是 ， 上 面 竟 然 一 个 相关 网 络 包 都 没有 。 而 在 ethl 上 
抓 的 包 却 是 图 2 的 表现 : ”A 正 通过 ARP 广 播 查 找 B (192.168.182.131) 的 
MAC 地 址 ， 试 图 绕 过 默认 网 关 直 接 与 B 通 信 。 这 说 明了 什么 问题 呢 ? 
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这 说 明 A 上 存在 一 项 符合 192.168.182.131 的 路 由 ， 促 使 A 通过 eth1 直 
接 与 B 通 信 。 我 赶紧 逐 项 检查 路 由 表 ， 果 然 发 现 有 这 么 一 项 〔 见 图 3) : 


[root@A ~]# route |egrep "Dest|168.182" 


Destination 。 Gateay emmask Flags Metric Ref 。 Use Tface 
192.168.182,0 + 255.255.255.0 U 0 8 9 eth 
图 3 


因为 192.168.182.131 属 于 192.168.182.0/255.255.255.0， 所 以 就 会 走 
这 条 路 由 。 由 于 不 同 子 网 所 配 的 VLAN 也 不 同 ， 所 以 这 些 ARP 请 求 根本 
到 达 不 了 B。ping 包 就 更 不 用 说 了 ， 它 从 来 就 没 发 出 来 过 。 客 户 赶紧 删 
除了 这 条 路 由 ， 两 台 服务 器 的 通信 也 随即 恢复 。 





为 什么 A 重启 之 后 会 多 了 这 条 莫名 其 妙 的 路 由 呢 ? 根据 客户 回忆 ， 
他 们 以 前 的 确 是 配 过 该 路 由 的 ， 后 来 删 掉 了 ， 不 知道 为 什么 配置 文件 里 
还 留 着 。 今 天 的 重启 加 载 了 一 遍 配置 文件 ， 所 以 这 条 路 由 又 出 现 了 。 你 
也 许 会 问 ， 为 什么 不 从 一 开始 就 仔细 检查 路 由 表 呢 ? 这 样 就 不 至 于 走 错 
胡同 ， 连 抓 包 和 Wireshark 都 省 了 。 我 当时 也 是 这 样 反 省 的 ， 但 现实 中 要 
做 到 并 不 容易 。 且 不 说 一 开始 并 没有 怀疑 到 路 由 表 ， 就 算 怀疑 了 也 不 一 
定 能 看 出 问题 来 。 在 这 个 案例 中 ， 系 统管 理 员 和 现场 工程 师 都 检查 过 路 
由 表 ， 但 无 一 例外 地 忽略 了 出 问题 的 一 项 。 这 是 因为 真实 环境 中 的 路 由 
表 有 很 多 项 ， 在 紧张 的 电话 会 议 上 难以 注意 到 多 出 了 异常 的 一 项 。 而 且 
子 网 掩 码 也 不 是 255.255.255.0 那 么 直观 。 假 如 本 文 所 用 的 人 P 保 持 不 变 ， 
但 子 网 掩 码 变 成 255.255.248.0， 路 由 表 就 成 了 图 4 所 示 的 样子 。 





rooten ~J# netstat -rm 
Kernel 1p routing table 


@ eth 
ethl 
ethz 
ethe 





图 4 


在 这 个 输出 中 ， 难 以 一 眼 注意 到 192.168.176.0 就 适用 于 目标 地 址 
192.168.182.131， 至 少 对 我 来 说 是 这 样 的 。 

我 们 能 从 这 个 案例 中 学 习 到 什么 呢 ? 最 直接 的 启示 便 是 翻 出 简历 ， 
投奔 甲 方 去 。 这 样 就 可 以 在 搞 砸 系统 的 时 候 ， 义 正 词 严 地 要 求 乙方 解决 
了 。 假 如 你 固执 地 想 继续 当 乙方 ， 那 就 开始 学 习 Wireshark 吧 。 再 有 经 验 
的 工程 师 也 有 犯 迷糊 的 时 候 ， 而 Wireshark 从 来 不 会 ， 它 随时 随地 都 能 告 
诉 你 真相 ， 不 偏 不 倚 。 


Excel 文 件 的 保存 过 程 








当 我 们 在 Notepad 等 文本 编辑 器 上 单 击 File-->Save 的 时 候 ， 底 层 的 操 
作 非 常 简单 一 编辑 器 上 的 内 容 被 直接 写 入 文件 了 《〈 见 图 1) 。 假 如 这 个 
文件 是 被 保存 到 了 网 络 盘 上 ， 我 们 就 可 以 从 Wireshark 抓 包 上 看 到 这 个 过 














程 〈( 见 图 2) 。 
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包 号 58: 

客户 端 :“ 我 要 写 6 个 字 节 到 /Temp/wireshark.txt 中 ”。 

包 号 59; 

服务 器 :“ 写 好 了 。” 

相 比 之 下 ， 微 软 Office 保 存 文件 的 过 程 就 没有 这 么 简单 了 ， 所 以 微 
软 的 老 用 户 都 或 多 或 少 经 历 过 保存 文件 时 发 生 的 问题 。 比 如 图 3 中 的 
Excel 提 示 信 息 就 很 常见 ， 它 说 明 该 文件 被 占用 ， 暂 时 保存 不 了 。 这 样 
的 问题 在 Notepad 上 是 不 会 发 生 的 。 
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那么 ，Excel 究 竟 是 如 何 保存 文件 的 呢 ? 虽然 我 的 手头 没有 微软 的 
文档 ， 但 只 要 把 文件 保存 到 网 络 盘 上 ， 就 可 以 借助 Wireshark 看 到 整个 过 
程 了 。 我 在 实验 室 中 编辑 了 Excel 文 件 “wireshark.xlsx”"， 然 后 在 保存 时 抓 
了 个 包 ， 我 们 一 起 来 分 析 其 中 比较 关键 的 几 个 步 又 ( 见 图 4》: 





这 几 个 包 可 以 解析 为 下 述 过 程 。 

24 号 包 : 

客户 端 : "Temp 目录 中 存在 一 个 叫 DCD652B.tmp 的 文件 吗 ? ” 

25 号 包 : 

服务 器 :“ 不 存在 。” 

26 号 包 : 

客户 端 :“ 那 我 要 创建 一 个 叫 DCD652B.tmp 的 文件 。” 

27 号 包 : 

服务 器 :“ 建 好 了 。” 

38 号 包 : 

客户 端 : “把 Excel 里 的 内 容 写 到 DCD652B.tmp 里 。” 

42 号 包 : 

服务 器 :“ 写 好 了 。” 

从 以 上 过 程 可 见 ，Excel 并 没有 直接 把 文件 内 容 存 到 wireshark.xlsx 
上 ， 而 是 存 到 一 个 叫 DCD652B.tmp 的 临时 文件 上 了 。 接 下 来 再 看 〈 见 图 
Ys 





47 号 包 : 
客户 端 : "Temp 目录 里 存在 一 个 叫 6AF04530.tmp 的 文件 吗 ? ” 
48 号 包 : 


服务 器 : “不 存在 。” 

97 号 包 : 

客户 端 :“ 那 好 ， 把 原来 的 wireshark.xlsx 重 命名 成 6AF04530.tmp。?” 

98 号 包 : 

服务 器 :“ 重 命名 完毕 。” 

103 号 包 : 

客户 端 : “再 把 一 开始 那个 临时 文件 DCD652B.tmp 重 命名 成 
wiresahrk .xlsx。” 

104 号 包 : 

服务 器 :“ 重 命名 完毕 。” 

从 以 上 过 程 可 知 ， 原 来 的 wireshark.xlsx 被 重 命名 成 一 个 临时 文件 ， 
叫 6AF04530.tmp。 而 之 前 创建 的 那个 临时 文件 DCD652B.tmp 又 被 重 命名 
成 wireshark.xlsx。 经 过 以 上 步骤 之 后 ， 我 们 拥有 一 个 包含 新 内 容 的 
wireshark.xlsx， 个 临时 文件 6AF04530.tmp 也 就 是 原来 那个 
wireshark.xlsx》。 接 着 往 下 看 ， 就 发 现 6AF04530.tmp 被 删除 了 〔 见 图 
6) 。 








图 6 


微软 把 保存 过 程 设 计 得 如 此 复杂 ， 自 然 是 有 很 多 好 处 的 。 不 过 复杂 
的 设计 往往 伴随 着 更 多 出 问题 的 概率 ， 因 为 其 中 一 步 出 错 就 意味 着 保存 
失败 。 比 如 上 文 所 到 的 报错 信息 “...is currently in use. Try again later”, 
大 多 数 时 候 的 确 是 文件 被 占用 才 触 发 的 ， 但 也 有 时 候 是 Excel bug 或 者 杀 
毒 软 件 导 致 的 。 无 论 出 于 何 种 原因 ， 我 们 只 有 理解 了 保存 时 发 生 的 细 
节 ， 才 可 能 探究 到 真相 。 

Wireshark 正 是 获得 这 些 细 节 的 通用 法 宝 ， 任 何 经 过 网 络 所 完成 的 操 
们 都 可 以 从 Wireshark 中 看 到 。 有 了 这 样 的 利器 ， 还 有 多 少 问题 能 
了? 








你 一 定 会 喜欢 的 技巧 


我 开始 学 习 Wireshark 的 时 候 ， 到 处 碰壁 ， 差 点 就 放弃 了 。 那 时 最 希 
望 的 是 有 前 辈 能 指点 迷津 ， 可 惜 四 处 求教 却 鲜 有 收获 。 即 便 多 年 后 的 今 
天 ， 网 络 上 能 找到 的 中 文 资料 还 是 寥寥 无 几 ， 少 之 又 少 。 所 以 我 总 结 了 
一 些 自 认 为 称 得 上 技巧 的 东西 ， 希 望 能 帮 初 学 者 少 走 一 点 弯路 。 








一 、 抓 包 


拿 到 一 个 网 络 包 时 ， 我 们 总 是 希望 它 尽 可 能 小 。 因 为 操作 一 个 大 包 
相当 费时 ， 有 时 甚至 会 死机 。 如 果 让 初学 者 分 析 1GB 以 上 的 包 ， 估 计 会 
被 打击 得 信心 全 无 。 所 以 抓 包 时 应 该 尽量 只 抓 必要 的 部 分 。 有 很 多 方法 
可 以 实现 这 一 点 。 

1. 只 抓 包头 。 一 般 能 抓 到 的 每 个 包 ( 称 为 “ 帧 "更 准确 ， 但 是 出 于 
表达 习惯 ， 本 书 可 能 会 经 常用 “ 包 ” 代 普 “ 帧 "和 “分 段 ") 的 最 大 长 度 为 
1514 字 节 ， 启 用 了 Jumbo Frame〈 巨 型 帧 ) 之 后 可 达 9000 字 节 以 上 ， 而 
大 多 数 时 候 我 们 只 需要 也 头 或 者 TCP 头 就 足够 分 析 了 。 在 Wireshark 上 可 
以 这 样 抓 到 包头 : 单 击 菜单 栏 上 的 Capture-->Options， 然 后 在 弹出 的 窗 
口上 定义 “Limit each packet to" 的 值 。 我 一 般 设 个 偏 大 的 数字 : 80 字 节 ， 
也 就 是 说 每 个 包 只 抓 前 80 字 节 。 这 样 TCP 层 、 网 络 层 和 数据 链 路 层 的 信 
息 都 可 以 包括 在 内 〈 见 图 1) 。 
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如 果 问 题 涉及 应 用 层 ， 该 再 加 上 应 用 层 协议 头 的 长 度 。 如 果 你 
像 我 一 样 经 常 忘记 不 同 协议 头 的 长 度 ， 可 以 输入 一 个 大 点 的 值 。 即 便 设 
成 200 字 节 ， 也 比 1514 字 节 小 多 了 。 

以 上 是 使 用 Wireshark 抓 包 时 的 建议 。 用 tcpdump 命 令 抓 包 时 可 以 
用 “-s” 参 数 达到 相同 效果 。 比 如 以 下 命令 只 抓 eth0 上 每 个 包 的 前 80 字 
节 ， 并 把 结果 存 到 /tmp/tcpdump.cap 文 件 中 。 
[root@server_1 /]# tcpdump -i eth0 -s 80 -w /tmp/tcpdump.cap 

2. 只 抓 必要 的 包 。 服 务 器 上 的 网 络 连接 可 能 非常 多 ， 而 我 们 只 需 
要 其 中 的 一 小 部 分 。Wireshark 的 Capture Filter 可 以 在 抓 包 时 过 滤 掉 不 需 
要 的 包 。 比 如 在 成 百 上 千 的 网 络 连接 中 ， 我 们 只 对 IP 为 10.32.200.131 的 
包 感 兴趣 ， 那 就 可 以 在 Wireshark 上 这 样 设置 ， 单 击 菜单 栏 上 的 Capture-- 








>Options， 然 后 在 Capture Filter 中 输入 “host 10.32.200.131”( 见 图 2〉。 
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图 2 


如 果 对 更 多 filter 表 达 式 感 兴趣 ， 请 参考 
http://wiki.wireshark.org/CaptureFilters. 

用 tcpdump 命 令 抓 包 时 ， 也 可 以 用 “host" 参 数 达到 相同 效果 。 比 如 以 
下 命令 只 抓 与 10.32.200.131 通 信 的 包 ， 并 把 结果 存 到 /tmp/tcpdump.cap 文 
件 中 。 
[root@server_1 /]# tcpdump-i ethO host 10.32.200.131-w /tmp/tcpdump.cap 
注意 : 设置 Capture Filter 之 前 务必 三 思 ， 以 免 把 有 用 的 包 也 过 滤 掉 ， 尤 
其 是 容易 被 忽略 的 广播 包 。 当 然 有 时 候 再 怎么 考虑 也 会 失 算 ， 比 如 我 有 
一 次 把 对 方 的 了 地 址 设 为 fter， 结 果 一 个 包 都 没 抓 到 。 最 后 只 能 去 掉 
包 ter 再 抓 ， 才 发 现 是 NAT (网 络 地 址 转换 ) 设备 把 对 方 的 IP 地 址 改 掉 





了 。 

抓 的 包 除 了 要 小 ， 最 好 还 能 为 每 步 操作 打上 标记 。 这 样 的 包 一 目 了 
然 ， 党 心 悦 目 。 比 如 要 在 Windows 上 抓 一 个 包含 三 步 操作 的 问题 ， 我 会 
这 样 抓 。 

(1) ping <IP> -n1-11 

(2) 操作 步骤 1 

(3) ping <IP> -n1-12 

(4) 操作 步骤 2 

(5) ping <IP> -n1-13 

(6) 操作 步骤 3 

如 图 3 所 示 ， 如 果 我 需要 分 析 步骤 1， 则 只 要 看 146 一 183 之 间 的 包 即 
可 。 注 意 到 146 号 包 最 底下 的 *Data (1 byte) ”了 吗 ? byte 的 数目 表示 是 
第 几 步 ， 这 样 就 算 在 步骤 很 多 的 情况 下 也 不 会 混乱 。 

抓 包 的 技巧 还 有 很 多 ， 比 如 可 以 写 一 个 脚本 来 循环 抓 包 ， 等 侦察 到 
某 事件 时 自动 停止 。 一 位 工程 师 即 使 不 懂 网 络 分 析 ， 但 如 果 能 抓 得 一 手 
好 包 ， 也 是 一 项 很 了 不 起 的 技能 了 。 














Wireshark 的 默认 设置 堪 称 友 好 ， 但 不 同 用 户 的 从 事 领 域 和 使 用 习惯 
各 有 不 同 ， 所 以 有 时 需要 根据 自己 的 情况 对 配置 略 作 修改 。 

1， 我 经 常 需 要 参照 服务 器 上 的 日 志 时 间 ， 找 到 发 生 问题 时 的 网 络 
和 包 。 所 以 就 把 Wireshark 的 时 间 调 成 跟 服务 器 一 样 的 格式 。 单 击 
Wireshark 的 View-->Time Display Format-->Date and Time of Day， 就 可 
以 实现 此 设置 ( 见 图 4)。 
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图 4 


2. 不 同类 型 的 网 络 包 可 以 自 定义 颜色 ， 比 如 网 络 管理 员 可 能 会 把 
OSPF 等 协议 或 者 与 Spanning Tree Protocol (生成 树 协议 ) 相关 的 网 络 包 
设 成 最 显眼 的 颜色 。 而 文件 服务 器 的 管理 员 则 更 关心 FTP、SMB 和 NFS 
协议 的 颜色 。 我 们 可 以 通过 View -->Coloring Rules 来 设置 颜色 。 如 果 同 
事 已 经 有 一 套 非常 适合 你 工作 内 容 的 配色 方案 ， 可 以 请 他 从 Coloring 
Rules 窗 口 导出 ， 然 后 导入 到 你 的 Wireshark 里 〈 见 图 5) 。 记 得 下 次 和 他 
吃饭 时 主动 买单 ， 要 知道 配 一 套 养眼 的 颜色 可 要 花 不 少时 上 





























图 5 


3. 更 多 的 设置 可 以 在 Edit->Preferences 窗 口中 完成 。 这 个 窗口 的 设 
置 精度 可 以 达到 一 些 协 议 的 细节 。 比 如 在 此 窗口 单 击 Protocols-->TCP 就 
可 以 看 到 多 个 TCP 相 关 选 项 ， 将 鼠标 停 在 每 一 项 上 都 会 有 详细 介绍 。 假 
如 经 常 要 对 Sequence “Number 做 加 减 运算 ， 不 妨 选 中 Relative sequence 
numbers( 见 图 6) ， 这 样 会 使 sequence number 看 上 去 比 实际 小 很 多 。 





























4. 如 果 你 在 其 他 时 区 的 服务 器 上 抓 包 ， 然 后 下 载 到 自己 的 电脑 上 
分 析 ， 最 好 把 自己 电脑 的 时 区 设 成 跟 抓 包 的 服务 器 一 样 。 这 样 ， 
Wireshark 显 示 的 时 间 才 能 匹配 服务 器 上 日 志 的 时 间 。 比 如 说 ， 服 务 器 的 
日 志 显示 2/13/2014 13:01:32 有 一 个 错误 信息 。 那 我 们 要 在 自己 电脑 上 调 
整 时 区 之 后 ， 才 能 到 Wireshark 上 检查 2/13/2014 13:01:32 左 右 的 包 ， 否 则 
就 得 先 换算 时 间 。 


很 多 时 候 ， 解 决 问题 的 过 程 就 是 层 层 过 滤 ， 直 至 找到 关键 包 。 前 面 


已 经 介绍 过 抓 包 时 的 Capture Filter 功能 了 。 其 实在 包 抓 下 来 之 后 ， 还 可 
以 进一步 过 滤 ， 而 且 这 一 层 的 过 滤 功能 更 加 强大 。 图 7 表示 一 个 “IP 为 
10.32.106.50， 且 TCP 端 口 为 445" 的 过 滤 表 达 式 。 
ee 











要 说 过 滤 的 作用 与 技巧 ， 就 算 专门 写 一 本 小 册子 都 不 为 过 。 篇 幅 所 
限 ， 本 文 只 能 <“ 过滤" 出 最 适合 初学 者 的 部 分 。 

1， 如 果 已 知 某 个 协议 发 生 问题 ， 可 以 用 协议 名 称 过 滤 一 下 。 以 
Windows 。 Domain 的 身份 验证 问题 为 例 ， 如 果 已 知 该 域 的 验证 协议 是 
Kerberos， 那 么 就 在 Filter 框 输入 Kerberos 作 为 关键 字 过 滤 。 除 了 纯粹 的 
Kerberos 包 ， 你 还 将 得 到 Session Setup 之 类 包含 Kerberos 的 包 《〈 见 图 
8) 。 





用 协议 过 滤 时 务必 考虑 到 协议 间 的 依赖 性 。 比 如 NES 共 享 挂 载 失 
败 ， 问 题 可 能 发 生 在 挂 载 时 所 用 的 mount 协 议 ， 也 可 能 发 生 在 mount 之 前 
的 portmap 协 议 。 这 种 情况 下 就 需要 用 “portmap | mount" 来 过 滤 了 〈 见 图 
9) 。 如 果 不 懂 协议 间 的 依赖 关系 怎么 办 ? 我 也 没有 好 办 法 ， 只 能 暂时 
放弃 这 个 技巧 ， 等 熟悉 了 该 协议 后 再 用 


















2， 了 地 址 加 port 号 是 最 常用 的 过 滤 方 式 。 除 了 手工 输入 ip.addreq<IP 


地 址 > &&tcp.porteq< 端 口号 > 之 类 的 过 滤 表 达 式 ，Wireshark 还 提供 了 更 
快捷 的 方式 ， 右 键 单 击 感 兴趣 的 包 ， 选 择 Follow TCP/UDP Stream ( 选 
择 TCP 还 是 UDP 要 视 传输 层 协议 而 定 ) 就 可 以 自动 过 滤 〈 见 图 10) 。 而 
且 该 Stream 的 对 话 内 容 会 在 新 弹出 的 窗口 中 显示 出 来 。 





图 10 


经 常 有 人 在 论坛 上 问 ，Wireshark 是 按照 什么 过 滤 出 一 个 TCP/UDP 
Stream 的 ? 答案 就 是 : 两 端的 了 了 加 port。 单 击 Wireshark 的 Statistics-- 
>Conversations， 再 单 击 TCP 或 者 UDP 标签 就 可 以 看 到 所 有 的 Stream ( 见 
图 11) 。 














图 11 


3. 用 鼠标 帮助 过 滤 。 我 们 有 时 因为 Wireshark 而 苦恼 ， 并 不 是 因为 
它 功能 不 够 ， 而 是 强大 到 难以 驾驭 。 比 如 在 过 滤 时 ， 有 成 千 上 万 的 条 件 
可 供 选择 ， 但 怎么 写 才 是 合乎 语法 的 ? 虽然 
http://www.wireshark.org/docs/dfref/ 提供 了 参考 ， 人 f 查找 毕竟 太 费 时 
费力 了 。Wireshark 考 虑 到 了 这 个 需求 ， 右 键 单 击 Wireshark 上 感 兴趣 的 
内 容 ， 然 后 选择 Prepare a Filter-->Selected， 就 会 在 Filter 框 中 自动 生成 过 





滤 表 达 式 。 在 有 复杂 需求 的 时 候 ， 还 可 以 选择 And、Or 等 选项 来 生成 一 
个 组 合 的 过 滤 表 达 式 。 

假如 右键 单 击 之 后 选择 的 不 是 Prepare a Filter， 而 是 Apply as Filter-- 
>Selected， 则 该 过 滤 表 达 式 生成 之 后 还 会 自动 执行 。 图 12 显 示 了 在 一 个 
SMB 包 的 SMB Command: Read AndX 上 右键 单 击 ， 并 选择 Selected 之 
后 ， 所 有 的 Read 包 都 会 被 过 滤 出 来 。 
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4. 我 们 可 以 把 过 滤 后 得 到 的 网 络 包 存 在 一 个 新 的 文件 里 ， 因 为 小 
文件 更 方便 操作 。 单 击 Wireshark 的 File-->Save As， 选 中 Displayed 单 选 
按钮 再 保存 ， 得 到 的 新 文件 就 是 过 滤 后 的 部 分 ( 见 图 13〉。 
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图 13 


有 时 候 你 会 发 现 ， 保 存 后 的 文件 再 打开 时 会 显示 很 多 错误 。 这 是 因 
为 过 滤 后 得 到 的 不 再 是 一 个 完整 的 TCP Stream， 就 像 抓 包 时 漏 抓 了 很 多 
一 样 。 所 以 选择 Displayed 选 项 时 要 慎重 考虑 。 

注意 : 有 些 Wireshark 版 本 把 这 个 功能 移 到 了 菜单 File-->Export 
Specified Packets..…. 选 项 中 ， 如 图 14 所 示 。 
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图 14 


总 体 来 说 ， 过 滤 是 Wireshark 中 最 有 趣 ， 最 难 ， 也 是 最 有 价值 之 处 ， 
值得 我 们 用 心 学 习 。 








9、 让 Wireshark 自 动 分 析 





有 些 类 型 的 问题 ， 我 们 根本 不 需要 研究 包 里 的 细节 ， 直 接 交 给 
Wireshark 分 析 就 行 了 。 

1， 单 击 Wireshark 的 Analyze-->Expert Info Composite， 就 可 以 在 不 
同 标签 下 看 到 不 同 级 别 的 提示 信息 。 比 如 重 传 的 统计 、 连 接 的 建立 和 重 
置 统 计 ， 等 等 。 在 分 析 网 络 性 能 和 连接 问题 时 ， 我 们 经 常 需要 借助 这 个 
功能 。 图 15 是 TCP 包 的 重 传统 计 。 
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我 曾经 用 Time-Sequence Graph (Stevens) 生 成 了 图 17。 
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图 15 
2， 单 击 Statistics-->Service Response Time， 再 选 定 协议 名 称 ， 可 以 
得 到 响应 时 间 的 统计 表 。 我 们 在 衡量 服务 器 性 能 时 经 常 需要 此 统计 结 
果 。 图 16 展 示 的 是 SMB2 读 写 操作 的 响应 时 间 。 
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3， 单 击 Statistics-->TCP Stream Graph， 可 以 生成 几 类 统计 图 。 比 如 



































图 17 


从 图 17 中 可 以 看 出 25 一 40 秒 ， 以 及 65 一 75 秒 之 间 没有 传输 数据 。 进 
一 步 研究 ， 发 现 发 送 方 内 存 不 足 ， 所 以 偶尔 出 现 暂停 现象 ， 添 加 内 存 后 
问题 就 解决 了 。 

为 什么 Wireshark 要 把 这 个 图 称 为 Stevens" 呢 ? 我 猜 是 为 了 向 
《TCP/IP Ilustrated》 的 作者 Richard Stevens 致 敬 。 这 也 是 我 非常 喜欢 的 
一 套 书 ， 在 此 推荐 给 所 有 读者 。 

4. 单 击 Statistics-->Summary， 可 以 看 到 一 些 统计 信息 ， 比 如 平均 
流量 等 ， 这 有 助 于 我 们 推测 负载 状况 。 比 如 图 18 中 的 网 络 包 才 
1.594Mbit/s， 说 明 流量 低 得 很 。 
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图 18 





最 容易 上 手 的 搜索 功能 


与 很 多 软件 一 样 ，Wireshark 也 可 以 通过 “Ctrl+F" 搜 索 关键 字 。 假 如 
我 们 怀疑 包 里 含有 "error” 一 词 ， 就 可 以 按 下 "Ctrl+F” 之 后 选中 “String” 单 
选 按钮 ， i 在 Filter 中 输入 “error" 进 行 搜索 〈 见 图 19) 。 很 多 应 用 层 的 
错误 都 可 以 靠 这 个 方法 锁定 问题 包 。 
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图 19 


一 篇 文章 不 可 能 涵盖 所 有 技巧 ， 本 文 就 到 此 为 止 。 最 后 要 分 享 的 ， 
是 我 认为 最 “ 笨 ” 但 也 是 最 重要 的 一 个 技巧 一 勤 加 练习 。 只 要 练 到 这 些 
技巧 都 变 成 习惯 ， 就 可 以 算 登 堂 入 室 了 。 


Patrick 的 故事 


我 还 在 山脚 下 的 时 候 ，Patrick 已 经 在 山顶 了 。 至 今 我 还 只 能 在 山坡 
仰望 他 。 

第 一 次 听 说 Patrick 的 名 字 是 在 6 年 前 。 当 时 我 初 入 存储 行业 ， 经 党 
被 各 类 难题 所 困 。 有 一 次 ， 我 要 把 大 批文 件 从 Windows 迁 移 到 文件 服务 
器 (NAS) 上 ， 不 知道 为 什么 有 些 文件 就 是 过 不 去 ， 报 错 信息 也 没有 参 
考 价值 。 走 投 无 路 之 际 ， 一 位 美国 同事 提 了 个 建议 : 我 司 在 波士顿 有 一 


位 很 厉害 的 专家 ， 也 许可 以 请 教 一 下 他 。 我 抱 着 试 一 试 的 态度 发 了 一 封 
求助 信 ， 没 想到 十 几 分 钟 后 就 得 到 回复 。 专 家 建议 我 抓 一 个 网 络 包 ， 然 
后 用 Wireshark 看 看 这 些 文件 有 没有 特殊 属性 。 我 立即 ， 果 然 些 
文件 上 看 到 Temporary 属 性 。 知 道 原因 后 ， 问 题 很 快 就 解决 了 。 那 是 我 
第 一 次 接触 Wireshark， 而 那 位 专家 就 是 Patrick。 

从 此 我 就 喜欢 上 了 Wireshark， 因 为 它 实在 很 有 用 ， 就 像 是 学 武之 人 
得 到 了 一 把 称 手 好 剑 。 而 Patrick 却 渐渐 被 我 淡忘 了 。 直 到 一 年 之 后 ， 我 
又 遇 到 这 样 一 个 难题 : 有 一 台 文 件 服务 器 的 读 性 能 只 有 10MB/s， 远 低 
于 客户 的 期 望 。 我 尝试 过 很 多 调 优 方式 ， 性 能 却 只 降 不 升 。 徒 劳 三 天 之 
后 ， 我 对 自己 彻底 失去 信心 。 这 时 候 我 又 想起 了 Patrick， 说 不 定 他 能 给 
点 意见 呢 。 于 是 我 上 传 了 一 个 网 络 包 ， 请 他 帮忙 分 析 。 一 小 时 后 奇迹 再 
次 出 现 ， 我 收 到 了 他 的 回信 。 信 中 提 到 两 点 建议 。 








。 TCP 超 时 重 传 的 间隔 时 间 太 长 ， 设 置 一 个 较 小 的 时 间 可 以 减少 重 
传 对 性 能 的 影响 。 


。 该 网 络 频繁 拥塞， 拥塞 点 大 多 在 32KB 以 上 。 如 果 把 发 送 窗口 限制 
在 32KB， 就 可 以 避免 触 碰 拥塞 点 。 


我 简直 不 敢 相信 这 些 分 析 ， 短 短 一 个 小 时 怎么 能 看 出 这 么 深奥 的 原 
因 ? 我 好 歹 也 用 了 一 年 Wireshark 了 ， 几 乎 每 个 菜单 都 很 熟悉 ， 却 从 来 不 
知道 有 个 地 方 可 ”以 看 出 拥塞 点 。 不 过 有 了 上 次 的 成 功 经 验 ， 我 决定 还 

尝试 一 下 这 两 条 建议 。 在 把 超时 重 传 时 间 减 小 之 后 ， 读 性 能 立即 达到 
20MB/s， 比 之 前 提高 了 一 倍 。 这 个 结果 实在 太 振奋 人 心 ， 一 扫 三 天 来 
的 阴 者 。 我 赶紧 再 设置 发 送 窗口 ， 没 想到 性 能 又 提高 了 一 倍 ， 达 到 
40MB/s。 现 场 的 工程 师 和 客户 都 在 欢呼 ， 我 在 电话 上 也 久久 不 能 平 
静 。 这 时 候 我 才 真 正 被 Patrick 的 实力 所 震撼 。 觉 得 自己 就 像 武 侠 小 说 中 
初 涉 江湖 的 少年 ， 一 年 前 被 深 藏 不 露 的 大 侠 所 救 ， 却 只 看 到 好 剑 的 厉 
害 。 一 年 后 再 次 身 陷 险 境 ， 看 到 大 侠 出 招 ， 才 知道 自己 有 眼 不 识 泰 山 ， 





恨不得 立即 确 头 拜师 。 

等 到 我 学 会 在 Wireshark 上 看 拥塞 窗口 ， 已 经 是 半年 后 的 事 了 。 期 间 
我 重读 了 Richard 。 Stevens 的 《TCP/IP ”lllustrated》， 允 到 疑难 就 请 教 
Patrick。 他 每 次 的 回信 都 极 像 专 业 论文 ， 篇 幅 极 长 却 又 字 字 珠 现 ， 有 一 
次 甚至 当场 写 了 个 程序 帮 我 理解 概念 。 他 的 严谨 、 耐 心 和 分 享 精神 都 堪 
称 项 级 工程 师 的 典范 。 假 如 说 他 是 一 位 老师 ， 那 一 定 是 我 求学 路 上 碰 到 
过 最 为 出 色 的 老师 。 我 专门 在 Outlook 里 设 了 一 个 rule， 把 他 的 所 有 邮件 
放 在 一 起 ， 至 今 一 封 都 没有 删 过 。 在 非 技 术 问题 上 ，Patrick 从 来 惜 字 如 
金 。 我 曾经 问 他 : “Have you ever thought about writing a book?” 他 很 简单 
地 回答 ; “Iam not a good author.” 如 果 他 都 不 算 good author 的 话 ， 有 几 个 
人 称 得 上 好 ?即便 把 我 收藏 的 这 些 邮件 集结 起 来 ， 也 是 一 本 好 书 了 。 

我 曾经 想 过 ， 将 来 某 一 天 能 不 能 学 到 Patrick 的 水 平 ? 现在 已 经 不 考 
虚 这 个 问题 了 ， 因 为 我 发 现 他 的 技术 似乎 是 没有 边界 的 。 有 一 天 ， 我 被 
一 个 Active Directory 的 问题 难 住 ， 微 软 的 工程 师 也 无 可 奈何 ， 他 却 精准 
地 解决 了 。 我 才 知道 他 对 Windows Domain 也 深 有 研究 。 当 天 中 午 和 研 
发 部 门 的 同事 一 起 吃饭 时 ， 我 向 他 提起 了 无 所 不 知 的 Patrick。 没 想到 这 
位 同事 也 很 震惊 , “他 懂 这 么 多 啊 ? 我 只 知道 他 正在 帮 我 们 处 理 一 个 操 
作 系 统 的 问题 。” 从 同事 转 来 的 邮件 上 ， 我 果然 看 到 Patrick 向 他 讲解 了 
一 个 操作 系统 的 细节 问题 。 这 时 我 不 禁 想 起 他 自 谦 过 的 一 句 
话 “Everybody has his expertise”。 可 是 有 什么 技术 领域 不 是 你 的 expertise? 
我 很 想 当 面 问 问 这 位 素 未 谋面 的 老师 。 
几 年 后 我 到 波士顿 开会 ， 第 一 个 想见 的 人 就 是 Patrick。 我 带 了 中 国 
点 心 ， 也 带 着 很 多 感谢 去 拜访 他 。 可 惜 他 那天 没有 在 办 公 室 里 出 现 。 邻 
座 的 同事 说 , “我 们 也 很 久 没 有 见 到 Patrick 了 ， 他 在 家 里 办 公 ， 而 且 是 
在 夜里 。" 昕 说 我 是 从 中 国 慕 名 而 来 ， 这 位 同事 滔滔 不 绝地 说 起 大 家 对 
Patrick 的 敬仰 ， 并 表示 要 帮忙 联系 。 我 考虑 到 他 在 夜里 工作 ， 白 天 肯定 
要 休息 ， 只 能 放弃 登门 拜访 的 念头 。 回 国 后 收 到 Patrick 的 邮件 ， 原 来 他 
知道 后 第 二 天 就 去 了 办 公 室 ， 可 惜 我 那 时 已 经 在 飞机 上 了 。 














所 以 我 至 今 没 有 见 过 Patrick， 但 这 又 有 什么 关系 ? 在 网 络 时 代 ， 有 
些 人 就 算 从 来 没有 机 会 见面 ， 甚 至 不 知道 年 龄 和 种 族 ， 也 可 以 是 最 好 的 
老师 。 





Wireshark 的 前 世 今 生 








这 是 一 个 无 关 技术 的 小 故事 。 但 是 作为 Wireshark 爱 好 者 ， 了 解 一 下 
这 个 软件 的 前 世 今生 也 是 极 好 的 ， 谁 不 想 在 中 午 和 同 (ling) 事 (dao) 
一 起 吃饭 的 时 候 讲 个 业内 小 故事 ， 显 得 自己 业务 精湛 又 品味 不 俗 呢 ? 

故事 要 从 20 世 纪 90 年 代 开始 说 起 。 屠 时 的 IT 业 欣欣 向 荣 ， 摩托 罗拉 
正 野 心 近 勃 地 实施 久 星 计划 ;Google 的 两 位 创始 人 还 在 房东 的 车 库 里 研 
究 搜索 引擎 。 我 们 故事 的 主人 公 Gerald Combs 还 是 默默 无 闻 的 青年 。 和 
那个 时 代 的 很 多 工程 师 一 样 ，Gerald 技 术 精湛 ， 热 情 上 进 ， 动 手 能 力 极 
强 。 他 就 职 于 一 家 网 络 提供 商 ， 时 常 需要 分 析 软 件 来 辅助 工作 。 可 是 这 
样 的 软件 太 少 了 ， 而 且 一 个 license 就 要 80,000 美 金 。 即 便 在 今天 的 美 
国 ， 这 也 不 是 一 笔 小 数目 。 

和 我 们 中 的 很 多 人 不 一 样 ，Gerald 没 有 下 载 盗 版 软件 ， 而 是 决定 自 
己 写 一 个 。 他 单枪匹马 忙碌 了 几 个 月 。 我 们 今天 仍 能 想见 其 中 的 艰辛 一 
即便 是 从 业 多 年 的 工程 师 ， 对 很 多 网 络 协议 还 一 知 半 解 ， 更 不 要 说 开发 
一 个 能 分 析 协议 的 软件 了 。 而 一 位 工程 师 既 精通 多 种 协议 ， 又 能 写 好 代 
码 ， 更 是 常人 难以 企及 的 境界 。 但 谦虚 的 Gerald 一 直 对 此 轻 描 淡 
spent several months doing research and making notes.” 到 了 1998 年 7 月 ， 这 
个 软件 终于 面世 了 。 它 带 来 了 这 样 的 功能 ， 当 你 透 过 它 看 到 网 络 时 ， 不 
再 是 没有 意义 的 0 和 1， 而 是 可 以 理解 的 简洁 文字 。 有 了 它 的 专业 解说 ， 
我 们 几乎 能 直接 看 懂 网 络 上 发 生 的 一 切 。 以 前 难以 排查 的 问题 ， 在 它 介 
入 后 便 显露 无 遗 。 它 还 提供 了 权威 的 分 析 报告 ， 比 如 重 传 率 统计 、 响 应 
时 间 和 对 话 列表 等 ， 这 解放 了 原本 负担 繁重 的 网 络 管理 员 ， 使 他 们 有 更 











写 ， 所 


多 时 间 专注 其 他 事务 。 

Gerald 把 这 个 软件 命名 为 Ethereal， 正 对 应 了 它 的 功能 一 还 原 以 太 网 
的 真相 。Ethereal 的 代码 版 权 自 然 属 于 Gerald， 而 他 所 在 的 公司 
NIS (Network Integration Services) 则 拥有 Ethereal 商 标 。 当 时 谁 也 没有 
想到 ， 这 个 归属 权 会 在 多 年 后 引起 一 场 风波 。 由 于 Ethereal 写 得 太 好 
了 ， 而 且 是 以 GNU GPL 开源 许可 证 发 布 的 ， 世 界 各 地 的 开发 者 纷纷 参 
与 到 这 个 项 目 中 。 没 过 多 久 ， 它 就 涵盖 了 世界 上 大 多 数 通 信 协 议 ， 成 为 
广 受 欢迎 的 网 络 分 析 软 件 。 它 可 以 用 于 教学 ， 如 果 网 络 教师 用 它 辅助 上 
课 ， 可 以 大 大 提高 学 生 的 兴趣 。 也 可 以 辅助 开发 和 测试 ， 是 调试 网 络 程 
序 的 好 工具 。 当 然 它 最 大 的 用 途 还 是 诊断 问题 ， 从 数据 链 路 层 到 应 用 层 
的 种 种 协议 ， 几 乎 涉及 网 络 的 地 方 就 有 它 的 用 武之 地 。 更 难得 的 是 ， 
Gerald 并 没有 打算 从 中 获 利 ， 它 至 今 还 是 完全 免费 的 ， 每 位 愿意 学 习 的 
工程 师 都 可 以 受益 。 

世界 的 变化 总 是 超 乎 我 们 的 想象 ， 尤 其 是 在 IT 业 。 没 几 年 时 间 ， 镀 
星 计划 彻底 破产 ，Google 却 成 了 最 大 的 网 络 公司 。 只 有 Gerald 没 有 变 
化 ,一直 在 诡 诡 业 业 地 维护 Ethereal。 每 个 月 都 有 新 的 协议 出 现 ， 已 有 
的 协议 也 在 推出 新 版 本 ， 他 永远 有 忙 不 完 的 活 。 中 间 仅仅 发 生 过 一 次 改 
名 风波 : 2006 年 他 离开 NIS， 加 入 了 CACE。 由 于 和 老 东家 在 Ethereal 的 
商标 问题 上 无 法 达成 一 致 ，Gerald 把 项 目 改名 为 Wireshark。 从 此 
Ethereal 这 个 风靡 多 年 的 项 目 停 止 了 ， 只 留 下 ww.ethereal.com 域 名 。 我 
们 至 今 还 能 访问 它 ， 但 是 会 被 重 定向 到 一 家 叫 AOS 的 公司 。 为 什么 不 是 
重 定向 到 NIS 呢 ?因为 NIS 在 2011 年 被 AOS 合 并 了 。 

Wireshark 延 续 了 Ethereal 的 成 功 ， 现 在 有 成 千 上 万 的 开发 者 在 追随 
Gerald。 每 年 还 会 召开 一 次 为 期 4 天 的 Sharkfest 大 会 。2011 年 Wireshark 在 
SecTools 排 行 第 一 ，2012 年 被 Insecure.org 评 为 “No. 1 Packet Sniffers”。 美 
国 的 技术 作家 们 开始 为 它 著 书 立 说 ， 中 国 的 出 版 社 也 在 引进 (比如 人 民 
邮电 出 版 社 引 进出 版 的 《Wireshark 数 据 包 分 析 实 战 〈 第 2 版 ) 》) 。 值 
得 一 提 的 是 ，CACE 后 来 被 Riverbed 收 购 了 ，Riverbed 成 了 Wireshark 项 目 








的 赞助 商 。 很 多 中 国 工程 师 可 能 觉得 Riverbed 名 不 见 经 传 ， 但 说 到 Linux 
里 常用 的 tcpdump 命 令 就 不 会 陌生 。tcpdump 的 开发 者 之 一 Steve 
McCanne 就 是 Riverbed 的 CTO。 而 WinPcap 的 开发 者 Loris Degioanni 也 在 
Riverbed 工 作 。 似 乎 冥 冥 之 中 自 有 天 意 ，Riverbed 把 网 络 探测 界 的 先锋 
们 诊 到 了 一 起 。 我 们 要 向 Riverbed 致 敬 ， 多 亏 了 这 些 伟 大 的 工具 ， 我 们 
才 得 以 窥探 网 络 的 秘密 。 

Gerald 不 久 前 在 Twitter 上 宣布 , “Wireshark is，and will always be 
open ”source。” 其 实 Wireshark 即 便 不 再 开源 也 不 会 抹杀 他 的 成 就 。 改 变 
世界 的 IT 英雄 ， 可 以 像 Jobs 一 样 领导 一 个 成 功 的 公司 ， 更 可 以 像 Gerald 
一 样 创造 一 件 传世 的 作品 。 他 们 的 成 就 一 样 会 被 镜 刻 在 IT 历史 的 丰碑 
出 
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讽 丁 解 自 
NFS 协 议 的 解析 


20 世 纪 80 年 代 初 ， 一 家 神奇 的 公司 在 硅谷 诞生 了 ， 它 就 是 Sun 
Microsystems。 这 个 名 字 与 太阳 无 关 ， 而 是 源 自 互联 网 的 伊甸园 一 
Stanford University Network 的 首 字母 。 在 不 到 30 年 的 时 间 里 ，SUN 公 司 
创造 了 无 数 传世 作品 。 其 中 ，Java、Solaris 和 基于 SPARC 的 服务 器 至 今 
还 闻名 四 偿 。 后 来 ， 人 们 总 结 SUN 公 司 衰落 的 原因 时 ， 有 一 条 竟然 是 技 
术 过 剩 。 

Network ”File ”System (NFS) 协议 也 是 SUN 公 司 设计 的 。 顾 名 思 
义 ，NFS 就 是 网 络 上 的 文件 系统 。 它 的 应 用 场景 如 图 1 所 示 ，NFS 服 务 器 
提供 了 /code 和 /document 两 个 共享 目录 ， 分 别 被 挂 载 到 多 台 客户 端的 本 
地 目录 上 。 当 用 户 在 这 些 本 地 目录 读 写 文件 时 ， 实 际 是 不 知 不 觉 地 在 
NFS 服 务 器 上 读 写 
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图 1 


NFS 自 1984 年 面世 以 来 ， 已 经 流行 30 年 。 理 论 上 它 适用 于 任何 操作 


系统 ， 不 过 因为 种 种 原因 ， 一 般 只 在 Linux/UNIX 环 境 中 存在 。 我 在 很 多 
数据 中 心 见 到 过 NFS 应 用 ， 其 中 不 乏 通信 、 银 行 和 电视 台 等 大 型 机 构 。 
无 论 SUN 的 命运 如 何 多 外 ，NFS 始 终 处 乱 不 惊 ， 这 么 多 年 来 只 出 过 3 个 
版 本 ， 即 1984 年 的 NFSv2、1995 年 的 NFSv3 和 2000 年 的 NFSv4。 目 前 ， 
大 多 数 NFS 环 境 都 还 是 NFSv3， 本 文 介绍 的 也 是 这 个 版 本 。NFSv2 还 在 
极 少数 环境 中 运行 (我 只 在 日 本 见 到 过 ) ， 可 以 想象 这 些 环境 有 多 老 
了 。 而 NFSv4 因 为 深 受 CIFS 影 响 ， 实 施 过 程 相对 复杂 ， 所 以 普及 速度 较 
慢 。 

如 何 深入 学 习 NFS 协 议 呢 ? 其 实 所 有 权威 资料 都 可 以 在 RFC 1813 中 
找到 ， 不 过 这 些 文档 读 起 来 就 像 面 对 一 张 冷 冰冰 的 面孔 ， 令 人 望 而 却 
步 。《 鸟 哥 的 Linux 私 房 菜 》 中 对 NFS 的 介绍 虽 称 得 上 友好 ， 但 美 中 不 
足 的 是 不 够 深入 ， 出 了 问题 也 不 知道 如 何 排查 。 我 曾经 为 此 颇 感 苦恼 ， 
因为 工作 中 碰 到 的 NFS 问 题 太 多 了 ， 走 投 无 路 时 就 只 能 硬 哨 RFC 一 既然 
网 络 协议 都 那么 复杂 ， 我 也 不 指望 有 捷径 了 。 直 到 有 一 天 偶然 打开 挂 载 
时 抓 的 包 ， 才 意识 到 Wireshark 可 以 改变 这 一 切 ， 它 使 整个 挂 载 过 程 一 目 
了 然 ， 所 有 细节 都 一 览 无 遗 。 分 析 完 每 个 网 络 包 ， 再 回顾 RFC 1813 便 完 
全 不 觉得 陌生 。 

如 果 你 对 NFS 有 兴趣 ， 不 妨 一 起 来 分 析 这 个 网 络 包 。 在 我 的 实验 室 
中 ，NEFS 客 户 端 和 文件 服务 器 的 了 分 别 是 10.32.106.159 和 10.32.106.62。 
我 在 运行 挂 载 命令 (mount) 时 抓 了 包 ， 然 后 用 “portmap | mount | 
mnfs” 进 行 过 滤 〈 见 图 2) 。 

[root@shifm1 tmp]# mount 10.32.106.62:/code /tmp/code 

二 











包间 人 四 TILE 





图 2 


从 图 2 中 的 Info 一 栏 可 以 看 到 ，Wireshark 已 经 提供 了 详细 的 解析 。 
不 过 我 们 还 可 以 翻译 成 更 直 白 的 对 话 (为 了 方便 第 一 次 接触 NFS 的 读 
者 ， Ek 作 了 一 些 注释 )。 

包 号 112 和 113 ( 见 图 3) : 


人 a ep 卫生 
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图 3 








客户 端 ;“ 我 想 连接 你 的 NFS 进 程 ， 应 该 用 哪个 端口 咱 ? ” 
服务 器 :“ 我 的 NFS 端 口 是 2049。” 岂 
包 号 123 和 124 ( 见 图 4): 


ee souee Deamaton nme Potntel_ ro 
123 10, 32,106.159 10,32,206.62 2013-07-45 NFs V3 NULL Call (Reply I 124) 
24 10.32,106.62 30.32:306.159 2013-07-15 NrS 3 RULL Reply (call 1m 123) 


图 4 
客户 端 :“ 那 我 试 一 下 NFS 进 程 能 否 连 上 
服务 器 :“ 收 到 了 ， 能 连 上 。” 钙 
包 号 128 和 129〈 见 图 5) : 





图 5 
客户 端 : “我 想 连接 你 的 mount 服 务 ， 应 该 用 哪个 端口 呀 ? ” 


服务 器 : “我 的 mount 的 端口 号 是 1234。” 印 
包 号 132 和 133《〈 见 图 6) : 
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图 6 


客户 端 :“ 那 我 试 一 下 mount 进 程 能 否 连 上 。” 
服务 器 :“ 收 到 了 ， 能 连 上 。” 外 
包 号 134 和 135 ( 见 图 7) ， 
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客户 端 :“ 我 要 挂 载 /code 共 享 目 录 。” 

服务 器 :“ 你 的 请 求 被 批准 了 。 以 后 请 用 fle handle 0x2cc9bel8 来 访 
问 本 目录 。” 久 

包 号 140 和 141 ( 见 见 图 8) 


oe Time rorocol to 
40 1203.106,159 20 32, oe 62 205-07-15 ”ES V3 Net. ca Geply 1n 14) 
141 10,32,196.62 10.32,106.159 2013-07-15 Nes v3 NULL neply (call 1n 140) 


图 8 


户 端 : “我 试 一 下 NEFS 进 程 能 否 

务 器 :“ 收 到 了 ， 能 连 上 。 0 

号 143 和 144 ( 见 图 9) : 
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图 9 


客户 端 : “我 想 看 看 这 个 文件 系统 的 属性 。 
服务 器 : “给 ， 都 在 这 里 。” 包 
入 4 和 和 相册 图 10) : 
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图 10 


客户 端 : “我 想 看 看 这 个 文件 系统 的 属性 。” 
服务 器 : “给 ， 都 在 这 里 。"” 包 








以 上 便 是 NFS 挂 载 的 全 过 程 。 细 节 之 处 很 多 ， 所 以 在 没有 Wireshark 
的 情况 下 很 难 排 错 ， 经 常 不 得 不 盲目 地 检查 每 一 个 环节 ， 比 如 先 用 
rpcinfo 命 令 获 得 服务 器 上 的 端口 列表 ( 见 图 11) ， 再 用 Telnet 命 令 逐 个 
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图 11 


[root@shifni tnp]# telnet 19.32.196.62 2849 
[root@shifnl tnp]# telnet 19.32.106.62 1234 
[root@shifnl tnp]# telnet 19.32.106.62 111 


图 12 


用 上 Wireshark 之 后 就 可 以 很 有 针对 性 地 排查 了 。 例 如 ， 看 到 
portmap 请 求 没有 得 到 回复 ， 就 可 以 防火 墙 对 111 端 口 的 拦截 ， 如果 
发 现 mount 请 求 被 服务 器 拒绝 了 ， 就 应 该 检查 该 共享 目录 的 访问 控制 。 

既然 说 到 访问 控制 ， 我 们 就 来 看 看 NFS 在 安全 方面 的 机 制 ， 包 括 对 
客户 端的 访问 控制 和 对 用 户 的 权 | | 

NFS 对 客户 端的 访问 控制 是 通过 IP 地 址 实现 的 。 创 建 共享 目录 时 可 
以 指定 哪些 IP 允 许 读 写 ， 哪 些 IP 只 允许 读 ， 还 有 哪些 IP 连 挂 载 都 不 允 
许 。 虽 然 配 置 不 难 ， 但 这 方面 出 的 问题 往往 很 “诡异 ”， 没 有 Wireshark 是 
几乎 无 法 排查 的 。 比 如 ， 我 碰 到 过 一 台 客户 端的 他 明 明 已 经 加 到 允许 读 
写 的 列表 里 ， 结 果 却 只 能 读 。 这 个 问题 难 住 了 很 多 工程 师 ， 因 为 在 客户 
端 和 服务 器 上 都 找 不 到 原因 。 后 来 我 们 在 服务 器 上 抓 了 个 包 ， 才 知道 在 



















收 到 的 包 里 ， 客 户 端的 IP 已 经 被 NAT 设 备 转换 成 别 的 了 。 

NEFS 的 用 户 权限 也 经 常 让 人 困惑 。 比 如 在 我 的 实验 室 中 ， 客 户 端 A 
上 的 用 户 admin 在 /code 目 录 里 新 建 一 个 文件 ， 该 文件 的 owner 正 常 显 示 为 
admin。 但 是 在 客户 端 B 上 查看 该 文件 时 ，owner 却 变 成 nasadmin， 过 程 
如 下 所 示 。 

客户 端 A〈 见 图 13) : 


[adningshifn /tmp]$ cp abe,txt code/abc,txt 

[adningshifnt /tnp]$ 1 -1 code/abe.txt 

-rwrrr-rv- 1 adnin adn 491292 Jul 28 2013 code/abc.txt 
图 13 





客户 端 B〈 见 图 14) : 


rooteshifmz /tmp]# 15 -1 code/abc.txt 
-rarrr-rv- 1 nasaduin adm 491292 Jul 28 2813 code/abc txt 


图 14 


这 是 为 什么 呢 ? 借助 Wireshark， 我 们 很 容易 就 能 看 到 原因 。 图 15 显 
示 了 用 en, txt 时 的 包 。 











图 15 


由 图 15 中 的 Credentials 信 息 可 知 ， 用 户 在 创建 文件 时 并 没有 使 用 
admin 这 个 用 户 名 ， 而 是 用 了 admin 的 UID 501 来 代表 自己 的 身份 〈 用 户 
名 与 UID 的 对 应 关系 是 由 客户 端的 /etc/passwd 决 定 的 ) 。 也 就 是 说 NFS 





协议 是 只 认 UID 不 认 用 户 名 的 。 当 admin 通 过 客户 端 A 创 建 了 一 个 文件 ， 
其 UID 501 就 会 被 写 到 文件 里 ， 成 为 owner 信 4 

而 当 客 户 端 B 上 的 用 户 查看 该 文件 属性 时 ， 看 到 的 其 实 也 是 “UID: 
501”。 但 是 因 ”为 客户 端 B 上 的 /etc/passwd 文 件 和 客户 端 A 上 的 不 一 样 ， 
其 UD 501 对 应 的 用 户 名 叫 nasadmin， 所 以 文件 的 owner 就 显示 为 
nasadmin 了 。 同 样 道理 ， 当 客户 端 B 上 的 用 户 nasadmin 在 共享 目录 上 新 
建 一 个 文件 时 ， 客 户 端 A 上 的 用 户 看 到 的 文件 owner 就 会 变 成 admin。 为 
了 防止 这 类 问题 ， 建 议 用 户 名 和 UID 的 关系 在 每 台 客 户 端 上 都 保持 一 
致 。 

弄 清 楚 了 NFS 的 安全 机 制 后 ， 我 们 再 来 看 看 读 写 过 程 。 经 验 丰富 的 
工程 师 都 知道 ， 性 能 调 优 是 最 有 技术 含量 的 。 借 助 Wireshark， 我 们 可 以 
看 到 NFS 究 竟 是 如 何 读 写 文件 的 ， 这 样 才能 理解 不 同 mount 参 数 的 作 
用 ， 也 才能 有 针对 性 地 进行 性 能 调 优 。 图 16 展 示 了 读 取 文件 abc.txt 的 过 
程 。 

brootDehitnl tmp]# cat /tmp/code/abc.txt 









包 号 2 和 3 ( 见 图 17): 
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图 17 





客户 端 :“ 我 可 以 进入 0x2cc9be18 (也 就 是 /code 的 file handle) 吗 ? ” 
服务 器 :“ 你 的 请 求 被 接受 了 ， 进 来 吧 。” 
包 号 5 和 6 ( 见 图 18): 
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图 18 


端 ; “我 想 看 看 这 个 目录 里 的 文件 及 其 fle handle。” 

服务 器 : “文件 名 及 fne handle 的 信息 在 这 里 。 其 中 abe.txt 的 file 
handle 是 0x531352e1。” 钙 

包 号 8 和 9 ( 见 图 19) : 
bn 
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图 19 








客户 端 : “0x531352el 〈 也 就 是 abc.txt) 的 文件 属性 是 什么 ?“ 
服务 器 : “权限 、uid、gid, 文件 大 小 等 信息 都 给 你 。” 包 号 11 和 
12 ( 见 见 图 20) : 





a Ne a Wes ey i. ts, og 
ER 


图 20 


客户 端 : “我 可 以 打开 0x531352el 〈 也 就 是 abc.txt) 吗 ? ” 
服务 器 : “你 的 请 求 被 允许 了 。 你 有 读 、 写 、 执 行 等 权限 。" 包 号 











端 :“ 从 0x531352e1 的 偏 移 量 为 0 处 〔 即 从 abc.txt 的 开头 位 置 ) 
读 131072 字 节 。” 

客户 端 : “从 0x531352el 的 偏 移 量 为 131072 处 《〈 即 接着 上 一 个 请 求 
读 完 的 位 置 ) 再 读 131072 字 节 。” 

服务 器 : “给 你 131072 字 节 。 

服务 器 : “再 给 你 131072 字 节 。 

(继续 读 ， 直 到 读 完整 个 文件 。》 

就 这 样 ，NFS 完 成 了 文件 的 读 取 过 程 。 从 最 后 几 个 包 可 见 ，Linux 
客户 端 读 NFS 共 享 文件 时 是 多 个 READ ”Call 连 续 发 出 去 的 (本 例 中 是 连 








续 两 个 ) 。 这 个 方式 跟 Windows XP 读 CIFS 共 享 文件 有 所 不 同 。 
Windows XP 不 会 连续 发 READ Call， 而 是 先 发 一 个 Call， 等 收 到 Reply 后 
再 发 下 一 个 。 相 比 之 下 ，Linux 这 种 读 方式 比 Windows XP 更 高 效 ， 尤 其 
是 在 高 带宽 、 高 延迟 的 环境 下 。 这 就 像 叫 外 卖 一样 ， 如 果 你 今 晚 想 吃 鸡 
翅 、 汉 堡 和 可 乐 三 样 食物 ， 那 合理 的 方式 应 该 是 打 一 通电 话 把 三 样 都 叫 
齐 了 。 而 不 是 先 叫 鸡翅 ， 等 鸡翅 送 到 了 再 叫 汉堡 ， 等 汉堡 送 到 后 再 叫 可 
乐 。 除 了 读 文件 的 方式 ， 每 个 READ Call 请 求 多 少数 据 也 会 影响 性 能 。 
这 人 台 Linux 默 认 每 次 读 131072 字 节 ， 我 的 实验 室 里 还 有 默认 每 次 读 32768 
字 节 的 客户 端 。 在 高 性 能 环境 中 ， 要 手动 指定 一 个 比较 大 的 值 。 比 如 在 
我 的 Isilon 实 验 室 中 ， 常 常 要 调 到 512KB。 这 个 值 可 以 在 mount 时 通过 
rsize 参 数 来 定义 ， 比 如 "mount ” -0 rsize=524288 。 10.32.106.62:/code 
/tmp/code”。 

分 析 完 读 操作 ， 接 下 来 我 们 再 看 看 写 文件 的 过 程 。 把 一 个 名 为 
abc.txt 的 文件 写 到 NFS 共 享 的 过 程 如 下 〔 见 图 22〉。 
[root@shifmltmp]# cp abc.txt code/abc.txt 








0 





图 22 


包 号 1 和 2 ( 见 图 23): 
I 
图 23 
客户 端 : “我 可 以 进入 0x2cc9be18《〈 即 /code 目 录 ) 吗 ? "服务 
:“ 你 的 请 求 被 接受 了 ， 进 来 吧 。” 
包 号 4 和 5《〈 见 图 24) : 


| 


图 24 





客户 端 : “请 问 这 里 有 叫 abc.txt 的 文件 么 ? ” 
服务 器 :“ 没 有 。” 5 
包 号 6 和 7 ( 见 图 25): 


Be 
图 25 


客户 端 :“ 那 我 想 创建 一 个 叫 abc.txt 的 文件 。” 
服务 器 :“ 没 问题 ， 这 个 文件 的 fle handle 是 0x531352el。” 
包 号 64、104、130、190( 见 图 26) 





图 26 


客户 端 : “从 0x531352el 的 偏 移 量 为 0 处 《 即 abc.txt 的 文件 开头 ) 写 
131072 字 节 。” 

服务 器 :“ 第 一 个 131072 字 节 写 好 了 。” 

客户 端 : “从 0x531352e1 的 信物 量 为 131072 处 ( 即 接着 上 一 个 写 完 
的 位 置 ) 再 写 131072 字 节 。 

客户 端 :“ 从 0x531352e1 的 偏 移 量 为 262144 处 〔 即 接着 上 一 个 写 完 
的 位 置 ) 再 写 131072 字 节 。” 

(继续 写 ， 直 到 写 完整 个 文件 。) 

包 号 306 和 307 ( 见 图 27): 









ey nme 
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图 27 





客户 端 : “我 刚才 往 0x531352el (也 就 是 abc.txt) 写 的 数据 都 存盘 了 
吗 ? ” 


服务 器 :“ 都 存 好 了 。”o 


包 号 308 和 309〈 见 图 28) : 





or 0 ee 0 多 Er coi Copy 3m jo0) ROGER 
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图 28 


客户 端 :“ 那 我 看 看 0x531352el (也 就 是 abc-txt) 的 文件 属性 。” 

服务 器 : “文件 的 权限 、uid、gid、 文 件 大 小 等 信息 都 给 你 

这 个 例子 的 写 操作 也 是 多 个 WRITE Call 连 续 发 出 去 的 ， 这 是 因为 我 
们 在 挂 载 时 没有 指定 任何 参数 ， 所 以 使 用 了 默认 的 async 写 方式 。 和 
async 相 对 应 的 是 sync 方 式 。 假 如 mount 时 使 用 了 sync 参 数 〈 见 图 29) ， 
客户 端 会 先 发 送 一 个 WRITE Call， 等 收 到 Reply 后 再 发 下 一 个 Call， 也 就 
是 说 WRITE Call 和 WRITE Reply 是 交 蔡 出 现 的 。 除 此 之 外 ， 还 有 什么 办 
法 在 包 里 看 出 一 个 写 操作 是 async 还 是 sync 呢 ? 答案 就 是 每 个 WRITE Call 
上 的 “UNSTABLE” 和 “FILE_SYNC” 标 志 ， 前 者 表示 async， 后 者 表示 
sync。 图 30 显 示 了 用 sync 参 数 后 的 网 络 包 。 








[rootlshifnl tap]t nount -0 sync 19.32.186.62:/code /tap/code 
[root@shifnl tnp]t cp abc.txt /tmp/code/abe.txt 
图 29 








从 图 30 中 不 仅 可 以 看 到 FILE_SYNC 标 志 ， 还 可 以 看 到 WRITE Call 
和 WRITE ”Reply 是 交 葵 出 现 的 (也 就 是 说 没有 连续 的 Cal)。 不 难 想 
象 ， 每 个 WRITE Call 写 多 少数 据 也 是 影响 写 性 能 的 重要 因素 ， 我 们 可 以 
在 mount 时 用 wsize 参 数 来 指定 每 次 应 该 写 多 少 。 不 过 在 有 些 客户 端 上 启 
用 sync ”参数 之 后 ， 无 论 wsize 定 义 成 多 少 都 会 被 强制 为 4KB， 从 而 导致 
写 性 能 非常 差 。 那 为 什么 还 有 人 用 sync 方 式 呢 ? 答案 是 有 些 特殊 的 应 用 





要 求 服务 器 收 到 sync 的 写 请 求 之 后 ， 一 定 要 等 到 存盘 才能 回复 WRITE 
Reply，sync 操 作 正 符合 了 这 个 需求 。 由 此 我 们 也 可 以 推出 COMMIT 对 
于 sync 写 操作 是 没有 必要 的 。 

非常 值得 一 提 的 是 ， 经 常 有 人 在 mount 时 使 用 noac 参 数 ， 然 后 发 现 
读 写 性 能 都 有 问题 。 而 根据 RFC 的 说 明 ，noac 只 是 让 客户 
属性 而 已 ， 为 什么 会 影响 性 能 呢 ? 光 看 文档 也 许 永远 
个 包 吧 ，Wireshark 会 告诉 我 们 答案 。 

先 看 写 文件 的 情况 〈 见 图 31) : 


Treateshifal tmp]# nount -0 noac 19,32,196.62:/code /tnp/code 
Treateshifaa tmp]# cp abe.txt /tmp/code/abc.txt 


图 31 








在 图 32 中 ， 从 Write Call 里 的 FILE_SYNC 可 以 知道 ， 虽 然 在 mount 时 
并 没有 指定 sync 参 数 ， 但 是 noac 把 写 操作 强制 变 成 sync 方 式 了 ， 性 能 自 
然 也 会 下 降 





再 看 读 文件 时 的 情况 〈 见 图 33) : 
[root@shifml tmpj# mount -o noac 10.32.106.62:/code /tmp/code 


root@shifml tmpj# cat /tmp/code/abe.txt 






站 
日 


图 33 


从 图 33 中 可 以 看 到 ， 在 读 文 件 过 程 中 ， 客 户 端 频繁 地 通过 
GETATTR 查 询 文 件 属性 ， 所 以 读 性 能 也 受到 了 影响 ， 在 高 延迟 的 网 络 
中 影响 尤为 明显 。 

纵 观 全 文 ， 我 们 分 析 了 挂 载 过程 的 每 个 步骤 ， 理 清 了 NFS 的 安全 机 
制 ， 还 研究 了 读 写 过 程 的 各 种 细节 ， 几 乎 把 NFS 协 议 的 方方面面 都 覆盖 
了 。 如 果 你 认真 读 完 本 文 ， 可 以 说 对 NFS 的 理解 已 经 达到 很 高 的 境界 
以 后 碰 到 类 似 noac 这 般 隐 项 的 问题 也 难 不 倒 你 。 假 如 真能 遇 到 棘手 的 难 
题 ， 我 建议 用 Wireshark 分 析 。 一 旦 用 它 解决 了 第 一 个 问题 ， 蔡 喜 你 ， 很 
快 就 会 中 毒 上 瘾 的 。 中 毒 之 后 会 有 什么 症状 呢 ? 你 可 能 碰 到 什么 问题 都 
想 抓 个 包 分 析 ， 就 像 小 时 候 刚 学 会 骑 车 一 样 ， 到 小 区 门口 打 个 次 油 都 要 
骑 车 去 。 


从 Wireshark 看 网 络 分 层 


对 于 刚 上 网 络 课 的 学 生来 说 ， 最 难 理解 的 莫 过 于 网 络 分 层 了 。 

“只 不 过 是 传输 一 些 数据 ， 为 什么 要 分 那么 多 层次 呢 ? ”这 是 大 学 里 
一 直 困 扰 我 的 问题 。 虽 然 课 本 在 此 处 花费 了 不 少 笔墨 ， 但 还 是 过 于 抽 
象 ， 我 始终 无 法 想像 一 个 网 络 包 里 的 层次 究竟 是 什么 样子 。 这 对 一 名 网 
络 工 程 师 来 说 是 不 可 接受 的 ， 就 像 连 器 官 都 分 不 清楚 的 医生 ， 谁 能 放心 





让 他 做 手术 呢 ? 幸好 后 来 遇 到 Wireshark， 才 算 解 开 了 这 个 疑问 。 
前 文 已 经 介绍 过 NFS 协 议 ， 我 们 便 以 它 为 例 来 学 习 网 络 分 层 。 图 1 
是 客户 端 10.32.106.159 往 服务 器 10.32.106.62 上 写 文件 时 抓 的 网 络 包 。 











这 5 个 包 大 概 做 了 下 面 这 些 事 。 

客户 端 : “我 想 创建 testtxt。” 

服务 器 :“ 创 建成 功 啦 〈 该 文件 的 包 e handle 是 0xf87a7de0， 点 开 包 
才能 看 到 ) 。” 

客户 端 : “我 想 写 28 个 字 节 到 该 文件 里 《这些 字 节 显 示 在 图 1 的 右 下 
角 ) 。” 

服务 器 :“ 收 到 啦 。” 

服务 器 :“ 写 好 啦 。” 

其 中 第 3 个 包 (编号 为 15) 的 详情 如 图 2 所 示 。Wireshark 已 经 形象 地 
把 这 个 包 的 内 容 用 分 层 的 结构 显示 出 来 。 




















图 2 


。 ”应 用 层 ， 由 于 NFS 是 基于 RPC 的 协议 ， 所 以 Wireshark 把 它 分 成 
NFS 和 RPC 两 行 来 显示 。 仔 细 检 查 这 一 层 的 详细 信息 ， 会 发 现 它 只 专注 


于 文件 操作 ， 比 如 读 或 者 写 ， 而 对 于 数据 传输 一 无 所 知 。 点 开 “+" 号 便 
能 看 到 这 个 写 操作 的 详情 ， 比 如 用 户 的 UID、 文 件 的 file handle 和 要 写 的 
字 节 数 等 。 


。 传输 层 : 这 一 层 用 到 了 TCP 协议。 应 用 层 所 产生 的 数据 就 是 由 
TCP 来 控制 传输 的 。 点 开 TCP 层 前 的 +” 号， 我 们 可 以 看 到 Seq 号 和 Ack 
号 等 一 系列 信息 ， 它 们 用 于 网 络 包 的 排序 、 重 传 、 流 量 控制 等 。 虽 然 名 
日 “传输 层 ”， 但 它 并 不 是 把 网 络 包 从 一 个 设备 传 到 另 一 个 ， 而 只 是 对 传 
输 行为 进行 控制 。 真 正 负责 设备 间 传输 的 是 下 面 两 层 。TCP 是 非常 有 用 
的 协议 ， 也 是 本 书 的 重 4 





。 网 络 互 连 层 〈 网 络 层 ) : 在 这 个 包 中 ， 本 层 的 主要 任务 是 把 TCP 
层 传 下 来 的 数据 加 上 目标 地 址 和 源 地 址 。 有 了 目标 地 址 ， 数 据 才 可 能 送 
达 接收 方 ， 而 有 了 源 地 址 ， 接 收 方才 知道 发 送 方 是 谁 。 

。 网 络 接口 层 〈 数 据 链 路 层 ) : 从 中 可 以 看 到 相 邻 两 个 设备 的 MAC 
地 址 ， 因 此 该 网 络 包 才能 以 接力 的 方式 送 达 目标 地 址 。 


从 这 个 例子 中 ， 我 们 可 以 看 到 网 络 分 层 就 像 是 有 序 的 分 工 。 每 一 层 
都 有 自己 ”的 责任 范围 ， 上 层 协 议 完成 工作 后 就 交 给 下 一 层 ， 最 终 形成 
一 个 完整 的 网 络 包 。 这 个 过 程 可 以 用 图 3 表示 。 





























NTFS 头 +TData 应 用 层 
TCP 头 | NFS 头 +Data 传输 层 
人 P 头 | TCP 类 | NFS 头 +Data 网 络 互 连 层 
以 太 帧 头 IP 头 | TCP 头 | NFS 头 t+Data 网 络 接口 层 








图 3 








现在 回想 起 来 ， 如 果 当时 老师 能 打开 Wireshark， 让 我 们 看 到 这 此 
实在 在 的 分 层 ， 我 也 不 会 困惑 那么 久 了 假如 那天 我 没有 逃课 的 话 )。 
不 过 教科 书 上 有 一 个 例子 ， 倒 的 确 是 很 有 助 于 理解 分 层 的 ， 这 么 多 年 之 
后 我 还 记得 它 一 有 位 经 理想 给 另 一 个 城市 的 经 理 寄 个 文件 ， 过 程 大 概 如 
图 4 所 示 。 


实 
































这 个 场景 中 的 4 个 角色 可 以 对 应 网 络 的 4 个 层次 ， 每 个 角色 都 有 自己 
的 分 工 ， 最 终 完成 文件 的 送 达 。 分 工会 带 来 很 多 好 处 ， 因 为 每 个 人 都 可 
以 专注 自己 擅长 的 领域 ， 更 好 地 服务 他 人 。 经 理 不 一 定 要 学 会 开车 ， 就 
像 写 NFS 代 码 的 程序 员 可 以 ”完全 不 懂 路 由 协议 。 秘 书 可 以 服务 多 名 经 
理 ， 正 如 TCP 层 可 以 支持 很 多 应 用 层 协 议 。 

如 果 让 邮递 员 包揽 秘书 的 工作 ， 是 否 也 可 以 昵 ? 说 不 定 也 能 做 到 ， 
虽然 听 上 去 很 滑稽 。 历 史上 还 真 存在 过 这 种 情况 一 TCP 和 IP 刚 发 明 的 时 
候 就 是 合 在 一 层 的， 后 来 才 拆 成 两 层 。 那 么 ， 如 果 在 经 理 和 秘书 之 间 加 
个 助理 ， 专 门 负 责 检查 错别字 ， 会 有 问题 吗 ? 与 很 多 官僚 作风 严重 的 机 


构 一 样 ， 多 盖 一 个 章 就 要 多 花 一 些 时 间 。 还 记得 20 世 纪 那 场 OSI 七 层 模 
型 与 TCP/IP 模 型 的 竞争 吗 ? 最 终 胜出 的 就 是 分 层 更 简单 的 TCP/IP 模 型 。 
要 知道 网 络 分 层 的 目的 并 不 仅仅 是 完成 任务 ， 而 是 要 用 最 好 的 方式 来 完 
成 。 

理解 了 分 层 的 基本 概念 ， 我 们 再 来 看 看 复杂 一 点 的 情况 。 如 果 这 个 
写 操作 比较 大 ， 变 成 8192 字 节 ，TCP 层 又 该 如 何 处 理 ? 是 否 也 是 简单 地 
加 上 TCP 头 就 交 给 网 络 互 连 层 〈 网 络 层 ) 呢 ? 答案 是 否定 的 。 因 为 网 络 
对 包 的 大 小 是 有 限制 的 ， 其 最 大 值 称 为 MTU， 即 “最 大 传输 单元 "。 大 多 
数 网 络 的 MTU 是 1500 字 节 ， 但 也 有 些 网 络 启用 了 巨 帧 (Jumbo 
Frame) ， 能 达到 9000 字 节 。 一 个 8192 字 节 的 包 进入 巨 帧 网 络 不 会 有 问 
题 ， 但 到 了 1500 字 节 的 网 络 中 就 会 被 丢弃 或 者 切 分 。 被 丢弃 意味 着 传输 
彻底 失败 ， 因 为 重 传 的 包 还 会 再 一 次 被 丢弃 。 而 被 切 分 则 意味 着 传输 效 
率 降低 。 

由 于 这 个 原因 ，TCP 不 想 简单 地 把 8192 字 节 的 数据 一 口气 传 给 网 络 
互 连 层 ， 而 是 根据 双方 的 MTU 决 定 每 次 传 多 少 。 知 道 自己 的 MTU 容 
易 ， 但 对 方 的 MTU 如 何 获得 呢 ? 如 图 5 所 示 ， 在 TCP 连 接 建立 〈 三 次 握 
手 ) 时 ， 双 方 都 会 把 自己 的 MSS (Maximum Segment Size) 告诉 对 方 。 
MSS 加 上 TCP 头 和 IP 头 的 长 度 JMTUT。 











图 5 


在 第 一 个 包 里 ， 客 户 端 声明 自己 的 MSS 是 8960， 意 味 着 它 的 MTU 
就 是 8960+20 (TCP 头 ) +20 (IP 头 ) =9000。 在 第 二 个 包 里 ， 服 务 器 声 
明 自己 的 MSS 是 1460， 意 味 着 它 的 MTU 就 是 1460+20+20=1500。 图 6 是 
TCP 连 接 建立 之 后 的 写 操作 ， 我 们 来 看 看 究竟 是 哪个 MTU 起 了 作用 。 

客户 端 在 包 号 46 创 建 了 abc.txt， 然 后 通过 48、49、51、52、54 和 55 
共 6 个 包 完 成 了 这 个 8192 字 节 的 写 操作 。 这 些 包 的 大 小 符合 接收 方 的 
MTU 1500 字 节 《〈 见 图 6 中 划 线 的 Total Length: 1500) ， 而 不 是 发 送 方 本 
身 支持 的 9000 字 节 。 也 就 是 说 ， 接 收 方 的 MTU 起 了 决定 作用 。 




















假如 把 客户 端 和 服务 器 的 MTU 互 换 一 下 ， 这 时 客户 端 最 大 能 发 出 
多 少 字 节 的 包 呢 ? 答案 还 是 1500。 因 为 无 论 接 受 方 的 MTU 有 多 大 ， 发 
送 方 都 不 能 发 出 超过 自己 MTU 的 包 。 我 们 可 以 得 到 这 样 的 结论 :发包 
的 大 小 是 由 MTU 较 小 的 一 方 决定 的 。 

这 个 例子 告诉 我 们 ， 分 层 之 间 的 关系 还 不 仅 是 分 工 。 某 些 分 层 的 协 
议 ， 比 如 TCP， 甚 至 会 主动 为 下 一 层 着 想 ， 从 而 避免 很 多 问题 。 当 然 这 
个 方案 还 不 算 完美 。 如 果 网 络 路 径 上 存在 着 一 个 MTU 小 于 1500 的 设 
备 ， 这 个 包 还 是 可 能 被 丢弃 或 者 切 分 。 正 如 Wikipedia 所 说 ，“There is no 
simple method to discover the MTU of links”。 

一 个 分 层 的 概念 就 写 了 这 么 多 ， 你 或 许 早 就 开始 纳闷 : 为 什么 网 络 
要 设计 得 如 此 复杂 ? 又 是 分 层 又 是 分 组 的 。 其 实 当 我 被 各 种 难题 搞 得 焦 
头 烂 额 的 时 候 ， 也 有 过 这 个 想法 ， 但 无 现实 一 假如 没有 这 么 复 
杂 的 设计 ， 网 络 就 不 会 如 此 强大 ， 也 达 不 到 今天 的 规模 。 从 另 一 个 角度 
考虑 ， 正 是 复杂 的 设计 才 让 我 们 有 了 这 份 工作 ， 感 谢 祖师 爷们 赐 饭 


TCP 的 连接 启蒙 


听 说 现在 的 年 青 人 可 以 用 手机 摇 到 妹子 ， 可 惜 在 我 们 那个 年 代 ， 手 








机 的 主要 功能 只 有 两 个 一 电话 和 短信 。 人 们 赁 直觉 决定 该 打 电 话 还 是 发 
短信 ， 却 很 少 去 深究 这 两 者 的 本 质 差 别 。 

打 电 话 时 要 先 拨号 ， 等 接 通 之 后 才 开 始 讲话 。 如 果 有 人 还 没 拨号 就 
对 着 电话 自 言 自 语 ， 旁 人 一 定 会 觉得 很 诡异 。 而 发 短信 时 根本 不 用 考虑 
对 方 在 干 嘛 ， 直 接 发 出 去 就 是 了 。 这 两 种 方式 的 本 质 差别 就 是 ， 打 电话 
时 要 先 “建立 连接 ”( 即 拨号 ) ， 而 短信 不 需要 。 建 立 连接 需要 花费 一 些 
时 间 ， 但 也 意味 着 更 加 可 靠 。 我 们 可 以 在 电话 上 确保 对 方 已 经 听 明 白 。 
而 短信 就 不 行 了 ， 发 送 之 后 并 不 知道 对 方 是 否 及 时 收 到 ， 也 不 知道 有 没 
有 产生 误解 。 有 一 个 笑话 这 样 调侃 短信 所 引发 的 事故 一 出 差 的 丈夫 一 大 
早 就 给 妻子 发 了 条 短信 “I had a wonderful night and really wish you were 
here”。 不 幸 的 是 ， 他 少 打 了 最 后 一 个 “e"， 这 个 误会 估计 需要 一 个 面 对 
面 的 连接 才能 化 解 。 

网 络 的 传输 层 和 手机 一 样 用 于 传递 信息 。 它 也 有 两 种 方式 一 TCP 和 
UDP， 其 中 TCP 是 基于 连接 的 ， 而 UDP 不 需要 连接 。 它 们 各 自 支持 一 些 
应 用 层 协议 ， 但 也 有 些 协议 是 两 者 都 支持 的 ， 比 如 DNS。 我 们 正好 可 以 
用 DNS 来 比较 TCP 和 UDP 的 差别 。 在 我 的 实验 室 中 ， 客 户 端 
10.32.106.159 向 DNS 服务 器 10.32.106.103 发 起 一 个 DNS 查询 ， 以 期 获得 
paddy_cifs.nas.com 所 对 应 的 人 P 地 址 。 

1，DNS 默 认 使 用 UDP 的 情况 下 〈 见 图 1) : 


[root@shifal ~]# nslookup 
> paddy_cifs.nas.con 








2. 用 set vc 强制 DNS 使 用 TCP 的 情况 下 《〈 见 图 3) : 


[rootlshifal ~]# nslookup 
> set ve 
> paddy_cifs.nas.com 





图 4 


从 这 两 种 情况 的 截图 可 以 看 到 ， 真 正 起 查询 作用 的 只 有 两 个 DNS 
包 。 

客户 端 ，“paddy_cifs.nas.com 的 IP 是 多 少 啊 ? ” 

服务 器 :“ 是 10.32.106.77。” 

在 使 用 UDP 的 情况 下 ， 的 确 只 用 这 两 个 包 就 完成 了 DNS 查询 。 但 在 
使 用 TCP 时 ， 要 先 用 3 个 包 ( 包 号 1、2、3) 来 建立 连接 。 查 询 结束 后 ， 
又 用 了 4 个 包 ( 包 号 7、8、9、10) 来 断 开 连接 。Wireshark 把 这 两 种 情况 
的 差别 完全 显示 出 来 了 。 我 们 可 以 从 中 看 到 连接 的 成 本 远 远 超过 DNS 查 
询 本 身 ， 这 对 繁忙 的 DNS 服 务 器 来 说 无 疑 是 巨大 的 压力 。 如 果 你 的 
DNS 还 在 使 用 TCP， 该 考虑 更 改 了 。 

连接 当然 要 付出 代价 ， 但 带 来 的 好 处 也 很 多 ， 这 就 是 为 什么 多 数 应 
用 层 协 议 还 是 基于 TCP 的 原因 。 在 以 后 的 章节 里 ， 你 将 从 Wireshark 看 到 
TCP 的 巨大 优势 ， 不 过 在 此 之 前 ， 一 定 要 理解 TCP 的 工作 原理 。 
Wireshark 上 能 看 到 很 多 TCP 参 数 ， 理 解 了 它们 就 是 学 习 TCP 最 好 的 开 
始 。 图 5 是 10.32.106.159 往 10.32.106.62 传 数据 的 过 程 。 我 已 经 把 一 些 参 





数 用 黑 框 标志 出 来 ， 以 便 阅 读 






Seq: 表示 该 数据 段 的 序号 ， 如 图 5 中 的 Seq 一 3681。 

TCP 提 供 有 序 的 传输 ， 所 以 每 个 数据 段 都 要 标 上 一 个 序号 。 当 接收 
方 收 到 乱 序 的 包 时 ， 有 了 这 个 序号 就 可 以 重新 排序 了 。 我 们 不 一 定 要 知 
道 Seq 号 的 起 始 值 是 怎么 算出 来 的 ， 但 必须 理解 它 的 增长 方式 。 如 图 6 所 
示 ， 数 据 段 1 的 起 始 Seq 号 为 1， 长 度 为 1448 (意味 着 它 包 含 了 1448 个 字 
符 ) ， 那 么 数据 段 2 的 Seq 号 就 为 1+1448=1449。 数 据 段 2 的 长 度 也 是 
1448， 所 以 数据 段 3 的 Seq 号 为 1449+1448=2897。 也 就 是 说 ， 一 个 Seq 号 
的 大 小 是 根据 上 一 个 数据 段 的 Seq 号 和 长 度 相 加 而 来 的 。 
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图 6 


图 5 的 Wireshark 截 屏 也 显示 了 相同 的 情况 ，51 号 包 的 Seq=3681， 
Len=1448， 所 以 52 号 包 的 Seq=3681+1448=5129。 这 个 Seq 号 是 由 这 两 个 
包 的 发 送 方 ， 也 就 是 10.32.106.159 维 护 的 。 

由 于 TCP 是 双向 的 ， 在 一 个 连接 中 双方 都 可 以 是 发 送 方 ， 所 以 各 自 
维护 了 一 个 Seq 号 。53 号 包 和 56 号 包 的 Seq 号 是 10.32.106.62 维 ， 由 
于 53 号 包 的 Seq=885，Len=0， 所 以 56 号 包 的 Seq=885+0=885。 

Len: 该 数据 段 的 长 度 ， 如 图 5 中 的 Len=1448， 注 意 这 个 长 度 不 包括 
TCP 头 。 图 5 中 虽然 10.32.106.62 发 出 的 两 个 包 Len=0， 但 其 实 是 有 TCP 头 
的 。 头 部 本 身 携带 的 信息 很 多 ， 所 以 不 要 以 为 L. 》 

Ack: 确认 号 ， 如 图 5 中 的 Ack 二 6577， 接 收 方向 
到 了 哪些 字 节 。 

比如 甲 发 送 了 “Seq: x Len: y” 的 数据 段 给 乙 ， 那 乙 回 复 的 确认 号 就 
是 x+y， 这 意味 着 它 收 到 了 x+y 之 前 的 所 有 字 节 。 同 样 以 图 5 为 例 ，52 号 










义 。 
方 确认 已 经 收 


包 的 Seq=5129, Len=1448， 所 以 来 自 接收 方 的 53 号 包 的 
Ack=5129+1448=6577， 表 示 收 到 了 6577 之 前 的 所 有 字 节 。 理 论 上 ， 接 
收 方 回复 的 Ack 号 恰好 就 等 于 发 送 方 的 下 一 个 Seq 号 ， 所 以 我 们 可 以 看 到 
54 号 包 的 Seq 也 等 于 5129+1448=6577。 

你 也 许 想 问 51 号 包 为 什么 没有 对 应 的 确认 包 昵 ? 其 实 53 号 包 确认 
6577 的 时 候 ， 表 示 序 号 小 于 6577 的 所 有 字 节 都 收 到 了 ， 相 当 于 把 51 号 发 
送 的 字 节 也 一 并 确认 了 ， 也 就 是 说 TCP 的 确认 是 可 以 累积 的 。 

在 一 个 TCP 连 接 中 ， 因 为 双方 都 可 以 是 接收 方 ， 所 以 它们 各 自 维护 
自己 的 Ack 号 。 本 例 中 10.32.106.62 没 有 发 送 任何 字 节 ， 所 以 
10.32.106.159 发 出 的 Ack 号 一 直 不 变 。 

你 可 能 要 花 些 心思 来 学 习 这 几 个 参数 ， 不 过 付出 是 值得 的 。 因 为 一 
旦 理解 了 它们 ， 接 下 来 学 习 TCP 的 特性 就 会 水 到 渠 成 。 比 如 当 包 乱 序 
时 ， 接 收 方 只 要 根据 Seq 号 从 小 到 大 重新 排 好 就 行 了 ， 这 样 就 保证 了 
TCP 的 有 序 性 。 再 比如 有 包 丢失 时 ， 接 收 方 通过 前 一 个 Seq+Len 的 值 与 
下 一 个 Seq 的 差 ， 就 能 判断 缺 了 哪些 包 ， 这 保证 了 TCP 的 可 靠 性 。 我 们 














举 个 例子 来 说 明 这 两 种 状况 ， 以 下 3 个 包 到 达 了 接收 方 〈 见 表 1) : 
表 1 
第 一 个 包 第 二 个 包 第 三 个 包 
Seq:301 Len:100 Seq:101 Len:100 Seq:401 Len:100 























很 明显 ， 从 Seq 号 可 见 它们 的 顺序 是 乱 的 。 重 新 排序 之 后 应 该 是 
面 这 个 样子 〈 见 表 2) : 


表 2 





Seq:101 Len:100 Seq:301 Len:100 Seq:401 Len:100 





排序 完 之 后 还 是 有 问题 。 第 一 个 包 的 Seq+Len=101+100=201， 意 味 
着 下 一 个 包 本 应 该 是 Seq:201， 而 不 是 实际 收 到 的 Seq:301。 由 此 接收 方 
可 以 推断 ，“Seq:201” 这 个 包 可 能 已 经 丢失 了 。 于 是 它 回复 Ack:201 给 发 
送 方 ， 提 醒 它 重 传 Seq:201。 

除了 这 几 个 参数 ，TCP 头 还 附带 了 很 多 标志 位 ， 在 Wireshark 上 经 党 
可 以 看 到 下 面 这 些 。 


。 SYN: 携带 这 个 标志 的 包 表 示 正 在 发 起 连接 请 求 。 因 为 连接 是 双 
向 的 ， 所 以 建立 连接 时 ， 双 方 都 要 发 一 个 SYN。 


。 ”FIN: 携带 这 个 标志 的 包 表 示 正 在 请 求 终止 连接 。 因 为 连接 是 双 
向 的 ， 所 以 彻底 关闭 一 个 连接 时 ， 双 方 都 要 发 一 个 FIN。 


“RST: 用 于 重 置 一 个 混乱 的 连接 ， 或 者 拒绝 一 个 无 效 的 请 求 。 


如 图 7 所 示 ， 我 故意 尝试 连接 一 台 Linux 服 务 器 的 445 端 口 〈 一 般 只 
有 Windows 上 才 开 启 这 个 端口 ，Wireshark 上 把 该 端口 显示 为 microsoft- 
ds) ， 结 果 就 被 RST 了 。 当 然 这 个 实验 属于 "没事 找 抽 型 "， 实 际 环境 中 
的 RST 往 往 意味 着 大 问题 。 如 果 你 在 Wireshark 中 看 到 一 个 RST 包 ， 务 必 
睁 大 眼睛 好 好 检查 。 












图 7 


了 解 了 这 些 参数 和 标志 位 ， 我 们 就 可 以 学 习 TCP 是 如 何 管理 连接 的 





了 。 图 8 是 一 个 标准 的 连接 建立 过 程 : 





Er 


图 8 


这 三 个 包 就 是 传说 中 的 “三 次 握手 "。 事 实 上 ， 握 手 时 Seq 号 并 不 是 
从 0 开始 的 。 我 们 之 所 以 在 Wireshark 上 看 到 Seq=0， 是 因为 Wireshark 启 


用 了 Relative Sequence Number。 如 果 你 想 关闭 这 个 功能 ， 可 以 在 Edit-- 
>Preferences-->protocols-->TCP 里 设置 。 
握手 过 程 可 以 用 图 9 来 表示 。 
袍 攻 
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图 9 


如 果 用 文字 来 表达 ， 过 程 就 是 这 样 的 。 

客户 端 : “我 能 跟 你 建立 连接 吗 ? 我 的 初始 发 送 序号 是 X。 如 果 你 答 
应 就 Ack=X+1。” 

服务 器 :“ 收 到 啦 ，Ack=X+1。 我 也 想 跟 你 建立 连接 。 我 的 初始 发 
送 序号 是 Y， 你 如 果 答 应 连接 就 Ack 二 Y+1。” 

客户 端 : “ 收 到 啦 ，Ack 一 Y+1。” 

为 什么 要 用 三 个 包 来 建立 连接 呢 ， 用 两 个 不 可 以 吗 ? 其 实 也 是 可 以 
的 ， 但 两 个 不 够 可 靠 。 我们 可 以 设想 一 个 情况 来 说 明 这 个 问题 ， 某 个 网 
络 有 多 条 路 径 ， 客 户 端 请 求 建立 连接 的 第 一 个 包 跑 到 一 条 延迟 严重 的 路 
径 上 了 ， 所 以 迟 迟 没有 到 达 服 务 器 。 因 此 ， 客 户 端 只 能 当 作 这 个 请 求 丢 
失 了 ， 不 得 不 再 请 求 一 次 。 由 于 第 二 个 请 求 走 了 正确 的 路 径 ， 所 以 很 快 
完成 工作 并 关闭 了 连接 。 对 于 客户 端 来 说 ， 事 情 似乎 已 经 结束 了 。 没 想 
到 它 的 第 一 个 请 求 经 过 跋山涉水 ， 还 是 到 达 了 服务 器 。 如 图 10 所 示 ， 服 
务 器 并 不 知道 这 是 一 个 旧 的 无 效 请 求 ， 所 以 按照 惯例 回复 了 。 假 如 TCP 
只 要 求 两 次 握手 ， 服 务 器 上 就 这 样 建立 了 一 个 无 效 的 连接 。 而 在 三 次 握 
手 的 机 制 下 ， 客 户 端 收 到 服务 器 的 回复 时 ， 知 道 这 个 连接 不 是 它 想 要 
的 ， 所 以 就 发 一 个 拒绝 包 。 服 务 器 收 到 这 个 包 后 ， 也 放弃 这 个 连接 。 











当 连 接 请 求 是 旧 的 无 效 包 时 


图 10 


经 过 三 次 握手 之 后 ， 连 接 就 建立 了 。 双 方 可 以 利用 Seq、Ack 和 Len 
等 参数 互 传 数据 。 传 完 之 后 如 何 断 开 连接 呢 ? 图 11 就 是 TCP 断 开 连 接 





客户 端 :“ 我 希望 断 开 连接 请 注意 FIN 标 志 ) 。” 

服务 器 :“ 知 道 了 ， 断 开 吧 。” 

服务 器 : “我 这 边 的 连接 也 想 断 开 〈 请 注意 FIN 标 志 ) 。” 客 户 
端 : “知道 了 ， 断 开 吧 。” 

就 这 样 ， 双 方 都 关闭 了 连接 。 其 实用 四 次 挥手 来 断 开 连接 也 不 完全 
可 靠 ， 但 世界 上 不 存在 100% 可 靠 的 通信 机 制 。 假 如 对 这 个 话题 感 兴 
趣 ， 可 以 研究 一 下 著名 的 “两 军 问题 "， 维 基 百 科 上 有 详细 介绍 ， 地 址 为 
http://en.wikipedia.org/wiki/ Two_Generals，Problem 。 

工作 中 如 果 碰 到 断 开 连 接 的 问题 ， 可 以 使 用 netstat 命 令 来 排查 ,无 


论 在 Windows 还 是 Linux 上 ， 这 个 命令 都 能 把 当前 的 连接 状态 显示 出 
来 。 不 过 老话 常 说 ， 最 推荐 的 工具 还 是 Wireshark。 


快递 员 的 工作 策略 一 一 TCP 窗 口 


假如 你 是 一 位 勤劳 的 快递 员 ， 要 送 100 个 包 庄 到 某 公司 去 ， 怎 样 送 
货 才 科学 ? 

最 简单 的 方式 是 每 次 送 1 个 ， 总 共 跑 100 趟 。 这 也 是 最 慢 的 方 
式 ， 因 为 往返 次 数 越 多 ， 消 耗 的 时 间 就 越 长 。 除 了 需要 减肥 的 快递 员 
一 般 人 不 会 选择 这 种 方式 。 最 快 的 方式 应 该 是 一 口气 送 100 个 ， 这 样 只 
要 跑 一 趟 就 够 了 。 可 惜 现 实 没有 这 么 美好 ， 往 往 存在 各 种 制约 因素 : 公 
司 狭小 的 前 台 只 容 得 下 20 个 包 庄 ， 要 等 签收 完了 才能 接着 送 ， 更 令 人 郁 
闽 的 是 ， 电 瓶 车 只 能 装 10 个 包 里 。 综 合 这 两 个 因素 ， 不 难 推出 电瓶 车 的 
运力 是 效率 瓶颈 ， 而 前 台 的 空间 则 不 构成 影响 。 

快递 送 货 的 策略 非常 浅显 ， 几 乎 人 人 可 以 理解 ， 而 TCP 传 输 大 块 数 
据 的 策略 却 很 少 人 懂 。 事 实 上 这 两 者 的 原理 是 相似 的 。 

TCP 显 然 不 用 电瓶 车 送 包 ， 但 它 也 有 “往返 ”的 需要 。 因 为 发 包 之 后 
并 不 知道 对 方 能 否 收 到 ， 要 一 直 等 到 确认 包 到 达 ， 这 样 就 花费 了 一 个 往 
返 时 间 。 假 如 每 发 一 个 包 就 停 下 来 等 确认 ， 一 个 往返 时 间 里 就 只 能 传 一 
个 包 ， 这 样 的 传输 效率 太 低 了 。 最 快 的 方式 应 该 是 一 口气 把 所 有 包 发 出 
去 ， 然 后 一 起 确认 。 但 现实 中 也 存在 一 些 限制 :接收 方 的 缓存 〈 接 收 窗 
口 ) 可 能 一 下 子 接受 不 了 这 么 多 数据 ， 网 络 的 带宽 也 不 一 定 足 够 大 ， 一 
口气 发 太 多 会 导致 丢 包 事故 。 所 以 ， 发 送 方 要 知道 接收 方 的 接收 窗口 和 
网 络 这 两 个 限制 因素 中 哪 一 个 更 严格 ， 然 后 在 其 限制 范围 内 尽 可 能 多 发 
包 。 这 个 一 口气 能 发 送 的 数据 量 就 是 传说 中 的 TCP 发 送 窗口 。 

发 送 窗口 对 性 能 的 影响 有 多 大 ? 一 图 胜 千言 ， 图 1 显示 了 发 送 窗口 
为 1 个 MSS 即 每 个 TCP 包 所 能 携带 的 最 大 数据 量 ) 和 2 个 MSS 时 的 差 














别 。 在 相同 的 往返 时 间 里 ， 右 边 比 左边 多 发 了 两 倍 的 数据 量 。 而 在 真实 









































环境 中 ， 发 送 窗口 常常 可 以 达到 数 十 个 MSS。 
TPN =1 MSS TPNH =2MSS 
发 送 广 氛 收 广 发 送 广 接收 育 
图 1 


图 2 就 是 在 真实 环境 中 抓 的 包 ， 抓 包 时 服务 器 10.32.106.73 正 往 客户 
端 10.32.106.103 发 数据 。 由 于 服务 器 的 发 送 窗口 很 大 ， 所 以 收 到 读 请 求 
之 后 ， 它 在 没有 客户 端 确认 的 情况 下 连续 发 了 10 个 包 。 





接着 我 把 客户 端的 接收 窗口 强制 成 2920， 相 当 于 两 个 TCP 包 能 携带 
的 数据 量 。 从 图 3 中 可 以 看 到 客户 端 通过 “win=2920” 把 自己 的 接收 窗口 
告诉 服务 器 。 因 此 服务 器 把 发 送 窗口 限制 为 2920， 每 发 两 个 包 就 停 下 来 
等 待 客户 端的 确认 。 同 样 一 个 14215 字 节 的 读 操作 ， 图 2 只 用 1 个 往返 时 
间 就 完成 了 ， 而 图 3 则 用 了 6 个 。 





为 了 更 好 地 说 明 这 个 过 程 ， 我 把 27 号 包 到 32 号 包 用 对 话 的 形式 表示 
出 来 ， 括 号 内 的 文字 为 我 添加 的 注释 。 


27 号 包 : 
客户 端 :“ 当 前 我 的 接收 窗口 是 2920。” 
28 号 包 : 


服务 器 :“〔 好 ， 那 我 的 发 送 窗口 就 定 为 2920。》 先 给 你 1460 字 
囊 

29 号 包 : 

服务 器 :“ 再 给 你 1460 字 节 。 (哎呀 ! 我 的 发 送 窗口 2920 用 完了 ， 
不 能 再 发 了 。) "30 号 包 : 

客户 端 :“ 你 发 过 来 的 2920 字 节 已 经 处 理 完毕 ， 所 以 现在 我 的 接收 
窗口 又 恢复 到 2920。” 

31 号 包 : 

服务 器 : “(好 ， 那 我 再 把 发 送 窗 口 定 为 2920。) 给 你 一 个 1460 字 
芝 * 

32 号 包 : 

服务 器 : “再 给 你 1460 字 节 。 (哎呀 ! 我 的 发 送 窗口 2920 又 用 完 
了 ， 不 能 再 发 了 。) ” 

你 也 许 有 个 疑问 ， 本 文 的 开头 不 是 说 有 两 个 限制 因素 吗 ? 这 个 例子 
只 提 到 了 接收 窗口 对 发 送 窗口 的 限制 ， 那 网 络 的 影响 呢 ? 由 于 网 络 的 影 
响 方式 非常 复杂 ， 所 以 本 文 暂时 跳 过 。 下 一 篇 文章 将 作 详细 介绍 。 

不 知道 出 于 何 种 原因 ，TCP 发 送 窗口 的 概念 被 广泛 误解 ， 比 如 ， 很 


多 人 会 把 接收 窗口 误 认为 发 送 窗口 。 我 经 常 想 在 论坛 上 回答 相关 提问 ， 
却 不 知道 该 从 何 答 起 ， 因 为 有 些 提问 本 身 就 基于 错误 的 概念 。 下 面 是 一 
些 经 常 出 现 的 问题 。 





1。 如 图 4 的 底部 所 示 ， 每 个 包 的 TCP 层 都 含有 “window size:”( 也 就 是 
win=) 的 信息 。 这 个 值 表示 发 送 窗口 的 大 小 吗 ? 











这 不 是 发 送 窗口 ， 而 是 在 向 对 方 声明 自己 的 接收 窗口 。 在 此 例子 
中 ，10.32.106.103 向 10.32.106.73 声 明 自己 的 接收 窗口 是 64093 字 节 。 
10.32.106.73 收 到 之 后 ， 就 会 把 自己 的 发 送 窗口 限制 在 64093 字 节 之 内 。 
很 多 教科 书 上 提 到 的 滑动 窗口 机 制 ， 说 的 就 是 这 两 个 窗口 的 关系 ， 本 文 
就 不 再 效 述 了 。 

假如 接收 方 处 理 数据 的 速度 跟 不 上 接收 数据 的 速度 ， 绥 存 就 会 被 占 
满 ， 从 而 导致 接收 窗口 为 0。 如 图 5 的 Wireshark 截 屏 所 示 ，89.0.0.85 持 续 
向 89.0.0.210 声 明 自己 的 接收 窗口 是 win=0， 所 以 89.0.0.210 的 发 送 窗口 就 
被 限制 为 0， 意 味 着 那 段 时 间 发 不 出 数据 。 








2. 我 如 何在 包 里 看 出 发 送 窗口 的 大 小 呢 ? 


很 遗憾 ， 没 有 简单 的 方法 ， 有 时 候 甚至 完全 没有 办 法 。 因 为 ， 当 发 
送 窗口 是 由 接收 窗口 决定 的 时 候 ， 我 们 还 可 以 通过 “window size:” 的 值 来 
判断 。 而 当 它 由 网 络 因素 决定 的 时 候 ， 事 情 就 会 变 得 非常 复杂 (下 篇 文 
章 将 会 详细 介绍 ) 。 大 多 数 。 ”时 候 ， 我 们 甚至 不 确定 哪个 因素 在 起 作 

只 能 大 概 推理 。 以 图 5 为 例 ， 接 收 方 声明 它 的 接收 窗口 等 于 0， 那 接 
收 窗口 肯定 起 了 限制 作用 《因为 不 可 能 再 小 了 ) ， 因 此 可 以 大 胆 地 判断 
发 送 窗口 就 是 0。 再 回顾 本 文 开 头 10.32.106.73 向 10.32.106.103 传 数据 的 
两 个 例子 。 第 一 个 例子 中 ， 我 们 只 能 推理 出 10.32.106.73 的 发 送 窗口 不 
小 于 那 10 个 包 〈39 一 48 号 ) 携带 的 数据 总 和 ， 但 具体 能 达到 多 少 却 不 得 
而 知 ， 因 为 窗口 还 没 用 完 时 读 操作 就 完成 了 。 第 二 个 例子 比较 容易 分 
析 ， 因 为 传 了 两 个 包 就 停 下 来 等 确认 ， 所 以 发 送 窗口 是 那 两 个 包 携带 的 
数据 量 2920。 





3. 发 送 窗口 和 MSS 有 什么 关系 ? 


发 送 窗口 决定 了 一 口气 能 发 多 少 字 节 ， 而 MSS 决 定 了 这 些 字 节 要 分 
多 少 个 包 发 完 。 举 个 例子 ， 在 发 送 窗口 为 16000 字 节 的 情况 下 ， 如 果 
MSS 是 1000 字 节 ， 那 就 需要 发 送 16000/1000=16 个 包 ; 而 如 果 MSS 等 于 
8000， 那 要 发 送 的 包 数 就 是 16000/8000=2 了 。 


4. 发 送 方 在 一 个 窗口 里 发 出 a 个 包 ， 是 不 是 就 能 收 到 n 个 确认 包 ? 


不 一 定 ， 确 认 包 一 般 会 少 一 些 。 由 于 TCP 可 以 累积 起 来 确认 ， 所 以 
当 收 到 多 个 包 的 时 候 ， 只 需要 确认 最 后 一 个 就 可 以 了 。 比 如 本 文中 
10.32.106.73 向 10.32.106.103 传 数据 的 第 一 个 例子 中 ， 客 户 端 用 一 
( 包 号 49) 确认 了 它 收 到 的 10 个 包 (39 一 48 号 包 ) 。 


5. 经 常 听 说 “TCP Window Scale 这 个 概念 ， 它 究竟 和 接收 窗口 有 何 
关系 ? 


在 TCP 刚 被 发 明 的 时 候 ， 全 世界 的 网 络 带宽 都 很 小 ， 所 以 最 大 接收 
窗口 被 定义 成 65535 字 节 。 随 着 硬件 的 革命 性 进步 ，65535 字 节 已 经 成 为 
性 能 瓶颈 了 ， 怎 么 样 才能 扩展 呢 ? TCP 头 中 只 给 接收 窗口 值 留 了 16 bit， 
肯定 是 无 法 突破 65535 (216 -1) 的 。 

1992 年 的 RFC 1323 中 提出 了 一 个 解决 方案 ， 就 是 在 三 次 握手 时 ， 把 
自己 的 Window Scale 信息 告知 对 方 。 由 于 Window Scale 放 在 TCP 头 之 外 
的 Options 中 ， 所 以 不 需要 修改 TCP 头 的 设计 。Window Scale 的 作用 是 向 
对 方 声明 一 个 Shift count， 我 们 把 它 作 为 2 的 指数 ， 再 乘 以 TCP 头 中 定义 
的 接收 窗口 ， 就 得 到 真正 的 TCP 接收 窗口 了 。 

以 图 6 为 例 ， 从 底部 可 以 看 到 10.32.106.159 告 诉 10.32.106.103 说 它 的 
Shift count 是 5。25 等 于 32， 这 就 意味 着 以 后 10.32.106.159 声 明 的 接收 窗 
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接 下 来 我 们 再 看 图 7 中 的 3 号 包 。10.32.106.159 声 明 它 的 接收 窗口 
为 “Window size value: 183”"，183 乘 以 32 得 到 5856， 所 以 Wireshark 就 显 
示 出 “Win=5856” 了 。 要 注意 Wireshark 是 根据 Shift count 计 算出 这 个 结果 


的 ， 如 果 抓 包 时 没有 抓 到 三 次 握手 ，Wireshark 就 不 知道 该 如 何 计算 ， 所 
以 我 们 有 时 候 会 很 莫名 地 看 到 一 些 极 小 的 接收 窗口 值 。 还 有 些 时 候 是 防 
火 墙 识别 不 了 Window Scale， 因 此 对 方 无 法 获得 Shift count， 最 终 导 致 
严重 的 性 能 
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传 的 讲究 


阅读 本 文 之 前 ， 务 必 保 证 心情 愉快 ， 以 免 产 生 撕 书 的 冲动 ， 同 时 准 
备 浓缩 咖啡 一 杯 ， 防 止 看 到 一 半 睡 着 了 。 因 为 这 部 分 内 容 是 TCP 中 最 枯 
燥 的 ， 但 也 是 最 有 价值 的 。 

前 文 说 到 ， 发 送 方 的 发 送 窗口 是 受 接收 方 的 接收 窗口 和 网 络 影响 
的 ， 其 中 限制 得 更 严 的 因素 就 起 决定 作用 。 接 收 窗口 的 影响 方式 非常 简 
单 ， 只 要 在 包 里 用 “Win=” 告 知 发 送 方 就 可 以 了 。 而 网 络 的 影响 方式 非常 
复杂 ， 所 以 留 到 本 文 专门 介绍 。 

网 络 之 所 以 能 限制 发 送 窗口 ， 是 因为 它 一 口气 收 到 太 多 数据 时 就 会 
拥塞 。 拥 塞 的 结果 是 丢 包 ， 这 是 发 送 方 最 鼠 价 的 。 能 导致 网 络 拥塞 的 数 
据 量 称 为 拥塞 点 ， 发 送 方 当然 希望 把 发 送 窗口 控制 在 拥塞 点 以 下 ， 这 样 
就 能 避免 拥塞 了 。 但 问题 是 连 网 络 设备 都 不 知道 自己 的 拥塞 点 ， 即 便 知 
道 了 也 无 法 通知 发 送 方 。 这 种 情况 下 发 送 方 如 何 避 兔 触 碰 拥 塞 点 呢 ? 


上 中 








方案 1. 发 送 方 知道 自己 的 网 卡带 宽 ， 能 否 以 此 推测 该 连接 的 拥塞 点 ? 

不 能 。 因 为 发 送 方 和 接收 方 之 间 还 有 路 由 器 和 交换 机 ， 其 中 任何 一 
个 设备 都 可 能 是 瓶颈 。 比 如 发 送 方 的 网 卡 是 10Gbiys， 而 接收 方 只 有 
1Gbits， 如 果 按 照 10Gbits 计 算 肯定 会 出 问题 。 就 算 用 1Gbits 来 计算 也 
没有 意义 ， 因 为 网 络 带 宽 是 多 个 连接 共享 的 ， 其 他 连接 也 会 占用 一 定 带 
宽 。 
方案 2， 逐 次 增加 发 送 量 ， 直 到 网 络 发 生 拥塞 ， 这 样 得 到 的 最 大 发 送 量 
能 定 为 该 连接 的 拥塞 点 吗 ? 

这 是 一 个 好 办 法 ， 但 没 这 么 简单 。 网 络 就 像 马路 一 样 ， 有 的 时 候 很 
堵 ， 其 他 时 候 却 很 空 〈 北 京 的 马路 除外 ) 。 所 以 拥塞 点 是 一 个 随时 改变 
的 动态 值 ， 探 出 的 拥塞 点 不 能 代表 未 来 。 

难道 就 没有 一 个 完美 的 方案 吗 ? 很 遗憾 ， 还 真 的 没有 。 自 网 络 诞生 
数 十 年 以 来， 涌现 过 无 数 绝顶 聪明 的 工程 师 ， 就 是 没有 一 个 人 能 解决 
这 个 问题 。 幸 好 经 过 几 代 人 的 努力 ， 总 算 有 了 一 个 最 靠 谱 的 策略 。 这 个 
策略 就 是 在 发 送 方 维护 一 个 虚拟 的 拥塞 窗口 ， 并 利用 各 种 算法 使 它 尽 可 
能 接近 真实 的 拥塞 点 。 网 络 对 发 送 窗口 的 限制 ， 就 是 通过 拥塞 窗口 实现 
的 。 下 面 我 们 就 来 看 看 拥塞 窗口 如 何 维护 。 

1 连接 刚刚 建立 的 时 候 ， 发 送 方 对 网 络 状况 一 无 所 知 。 如 果 一 口 
气 发 太 多 数据 就 可 能 遭遇 拥塞 ， 所 以 发 送 方 把 拥塞 窗口 的 初始 值 定 得 很 
小 。RFC 的 建议 是 2 个 、3 个 或 者 4 个 MSS， 具 体 视 MSS 的 大 小 而 定 。 

2 如果 发 出 去 的 包 都 得 到 确认 ， 表 明 还 没有 达到 拥塞 点 ， 可 以 增 
大 拥塞 窗口 。 由 于 这 个 阶段 发 生 拥 塞 的 概率 很 低 ， 所 以 增 速 应 该 快 一 
些 。RFC 建 议 的 算法 是 每 收 到 n 个 确认 ， 可 以 把 拥塞 窗口 增加 n 个 MSS。 
比如 发 了 2 个 包 之 后 收 到 2 个 确认 ， 拥 塞 窗口 就 增 大 到 2+2=4， 接 下 来 是 
4+4=8， 8+8=16.…… 这 个 过 程 的 增 速 很 快 ， 但 是 由 于 基数 低 ， 传 输 速度 
还 是 比较 慢 的 ， 所 以 被 称 为 慢 启动 过 程 。 

3. 慢 启动 过 程 持续 一 段 时 间 后 ， 拥 塞 窗口 达到 一 个 较 大 的 值 。 这 
时 候 传输 速度 比较 快 ， 触 碰 拥 塞 点 的 概率 也 大 了 ， 所 以 不 能 继续 采用 翻 





倍 的 慢 启动 算法 ， 而 是 要 缓慢 一 点 。RFC 建 议 的 算法 是 在 每 个 往返 时 间 
增加 1 个 MSS。 比 如 发 了 16 个 MSS 之 后 全 部 被 确认 了 ， 拥 塞 窗口 就 增加 
到 16+1=17 个 MSS， 再 接 下 去 是 17+1=18， 18+1=19..….. 这 个 过 程 称 为 拥 
塞 避免 。 从 慢 启 动 过 渡 到 拥塞 避免 的 临界 窗口 值 很 有 讲究 。 如 果 之 前 发 
生 过 拥塞 ， 就 把 该 拥塞 点 作为 参考 依据 。 如 果 从 来 没有 拥塞 过 就 可 以 取 
相对 较 大 的 值 ， 比 如 和 最 大 接收 窗口 相等 。 全 过 程 可 以 用 图 1 表示 。 
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图 1 
无 论 是 慢 启动 还 是 拥塞 避免 阶段 ， 拥 塞 窗口 都 在 逐渐 增 大 ， 理 论 上 
一 定时 间 之 后 总 会 碰 到 拥塞 点 的 。 那 为 什么 我 们 平时 感觉 不 到 拥塞 昵 ? 
原因 有 很 多 ， 如 下 所 示 。 


。 操作 系统 中 对 接收 窗口 的 最 大 设 定 多 年 没有 改动 ， 比 如 Windows 
在 不 启用 *TCP ”window ”scale ”option” 的 情况 下 ， 最 大 接收 窗口 只 有 
64KB。 而 近年 来 网 络 有 了 长 足 进 步 ， 很 多 环境 的 拥塞 点 远 在 64KB 以 
上 。 也 就 是 说 发 送 窗口 已 经 被 限制 在 64KB 了 ， 永 远 触 碰 不 到 拥塞 点 。 


。 很 多 应 用 场景 是 交互 式 的 小 数据 ， 比 如 网 络 聊天 ， 所 以 也 不 会 有 


拥塞 的 可 能 。 


。 在 传输 数据 的 时 候 如 果 采 用 同步 方式 ， 可 能 需要 的 窗口 非常 小 。 
比如 采用 了 同步 方式 的 NFS 写 操作 ， 每 发 一 个 写 请 求 就 停 下 来 等 回复 ， 
而 一 个 写 请 求 可 能 只 有 4KB。 


。 即便 偶尔 发 生 拥 塞 ， 持 续 时 间 也 不 足以 长 到 能 感受 出 来 ， 除 非 抓 
了 网 络 包 进 行 数据 分 析 、 对 比 。 


拥塞 之 后 会 发 生 什么 情况 昵 ? 对 发 送 方 来 说 ， 就 是 发 出 去 的 包 不 像 
往常 一 样 得 到 确认 了 。 不 过 收 不 到 确认 也 可 能 是 网 络 延 迟 所 致 ， 所 以 发 
2 待 一 小 段 时 间 后 再 判断 。 假 如 迟 迟 收 不 到 ， 就 认定 包 已 经 丢 

只 能 重 传 了 。 这 个 过 程 称 为 超时 重 传 。 如 图 2 所 示 ， 从 发 出 原始 包 
i 间 称 为 RTO。RTO 


发 送 窗 口 =4 MSS 


重 伟 


发 送 方 接收 方 
图 2 
的 取 值 颇 有 讲究 ， 理 论 上 需要 几 个 公式 计算 出 来 。 根 据 多 一 道 公 式 
就 会 丢失 一 半 读 者 的 原理 ， 本 文 将 对 此 只 字 不 提 ， 我 们 只 需要 知道 存在 
这 么 一 段 时 间 就 可 以 了 。 有 些 操作 系统 上 提供 了 调节 RTO 大 小 的 参数 。 
重 传 之 后 的 拥塞 窗口 是 否 需 要 调整 呢 ? 让 必要 ， 为 了 不 给 刚 发 
生 拥 塞 的 网 络 雪 上 加 霜 ，RFC 建 议 把 拥塞 窗口 降 到 1 个 MSS， 然 后 再 次 





进入 慢 启动 过 程 。 这 一 次 从 慢 启动 过 渡 到 拥塞 避免 的 临界 窗口 值 就 有 参 
考 依据 了 。Richard Stevens 在 《TCP/IP Illustrated》 中 把 临界 窗口 值 定 为 
上 次 发 生 拥塞 时 的 发 送 窗 口 的 一 半 。 而 RFC 5681 则 认为 应 该 是 发 生 拥塞 
时 没 被 确认 的 数据 量 的 12， 但 不 能 小 于 2 个 MSS。 比 如 说 发 了 19 个 包 出 
去 ， 但 只 有 前 3 个 包 收 到 确认 ， 那 么 临界 窗口 值 就 被 定 为 后 16 个 包 携带 
的 数据 量 的 12。 我 没有 细 究 过 为 什么 Stevens 和 REFC 会 有 这 个 分 歧 ， 不 
过 Stevens 是 在 1999 年 意外 去 世 的 ， 而 RFC ”5681 直 到 2009 才 发 布 ， 也 许 
是 Stevens 在 书 中 引用 了 更 早 版 本 的 RFC。 虽 然 Stevens 是 我 最 喜欢 的 技术 
作家 ， 但 在 这 个 细节 上 我 认为 RFC 5681 更 加 科学 。 

图 3 显示 了 发 生 超时 重 传 时 拥塞 窗口 的 变化 。 
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图 3 

不 难 想象 ， 超 时 重 传 对 传输 性 能 有 严重 影响 。 原 因 之 一 是 在 RTO 阶 
段 不 能 传 数据 ， 相 当 于 浪费 了 一 段 时 间 ; 原因 之 二 是 拥塞 窗口 的 急剧 减 
小 ， 相 当 于 接 下 来 ” 传 得 慢 多 了 。 以 我 的 个 人 经 验 ， 即 便 是 万 分 之 一 的 
超时 重 传 对 性 能 的 影响 也 非 同 小 可 。 我 们 在 Wireshark 中 如 何 检查 重 传情 
况 呢 ? 单 击 Analyze-->Expert Info Composite 菜 单 ， 就 能 在 Notes 标 签 看 到 

它们 了 ， 如 图 4 所 示 。 点 开 + 号 还 能 看 到 具体 是 哪些 包 发 生 了 重 传 。 
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图 4 








图 5 是 我 处 理 过 的 一 个 真实 案例 。 我 从 Notes 标 签 中 看 到 Seq 号 为 
1458613 的 包 发 生 了 超时 重 传 。 于 是 用 该 Seq 号 过 滤 出 原始 包 和 重 传 包 
《只 有 在 发 送 方 抓 的 包 才 看 得 到 原始 包 ) ， 发 现 RTO 竟 长 达 1 秒 钟 以 
上 。 这 对 性 能 的 影响 实在 太 大 了 ， 幸 好 这 台 发 送 方 提供 了 缩小 RTO 的 参 
数 ， 调 整 后 性 能 提高 了 不 少 。 当 然 治 标 又 治本 的 方式 是 找 出 瓶颈 ， 彻 底 





消除 重 传 。 


图 5 


有 时 候 拥 塞 很 轻微 ， 只 有 少量 的 包 丢失 。 还 有 些 偶然 因素 ， 比 如 校 
验 码 不 对 的 时 候 ， 会 导致 单个 丢 包 。 这 两 种 丢 包 症状 和 严重 拥塞 时 不 一 
样 ， 因 为 后 续 有 包 能 正常 到 达 。 当 后 续 的 包 到 达 接 收 方 时 ， 接 收 方 会 发 
现 其 Seq 号 比 期 望 的 大 ， 所 以 它 每 收 到 一 个 包 就 Ack 一 次 期 望 的 Seq 号 ， 
以 此 提醒 发 送 方 重 传 。 当 发 送 方 收 到 3 个 或 以 上 重复 确认 (Dup ”Ack) 
时 ， 就 意识 到 相应 的 包 已 经 对 了 ， 从 而 立即 重 传 它 。 这 个 过 程 称 为 快速 
重 传 。 之 所 以 称 为 快速 ， 是 因为 它 不 像 超 时 重 传 一 样 需要 等 待 一 段 时 
间 。 

图 6 是 我 处 理 过 的 另 一 个 真实 案例 。 客 户 端 发 送 了 1182、1184、 
1185、1187、1188 共 5 个 包 ， 其 中 1182 在 路 上 丢 了 。 幸 好 到 达 服 务 器 的 


4 个 包 触发 了 4 个 Ack=991851， 所 以 客户 端 意识 到 丢 包 了 ， 于 是 在 包 号 
1337 快 速 重 传 了 Seq=991851。 








为 什么 要 规定 凑 满 3 个 呢 ? 这 是 因为 网 络 包 有 时 会 乱 序 ， 乱 序 的 包 
一 样 会 触发 重复 的 Ack， 但 是 为 了 乱 序 而 重 传 没有 必要 。 由 于 一 般 乱 序 
的 距离 不 会 相差 太 大 ， 比 如 2 号 包 也 许 会 跑 到 4 号 包 后 面 ， 但 不 太 可 能 跑 
到 6 号 包 后 面 ， 所 以 限定 成 3 个 或 以 上 可 以 在 很 大 程度 上 避免 因 乱 序 而 触 
发 快速 重 传 。 如 图 7 中 的 左 图 所 示 ，2 号 包 的 丢失 凑 满 了 3 个 Dup Ack， 所 
以 触发 快速 重 传 。 而 右 图 的 2 号 包 跑 到 4 号 包 后 面 ， 却 因为 次 不 满 3 个 Ack 
而 没有 触发 快速 重 传 。 


天 包 甬 发 快 吉 午 从 矶 序 没有 前 必 快速 重 伟 








如 果 在 拥塞 避免 阶段 发 生 了 快速 重 传 ， 是 否 需要 像 发 生 超时 重 传 一 
样 处 理 拥塞 窗口 呢 ? 完全 没有 必要 一 既然 后 续 的 包 都 到 达 了 ， 说 明 网 络 
并 没有 严重 拥塞 ， 接 下 来 传 慢 点 就 可 以 了 。 对 此 Richard Stevens 和 RFC 
5681 的 建议 也 略 有 不 同 。 后 者 认为 临界 窗口 值 应 该 设 为 发 生 拥 塞 时 还 没 






被 确认 的 数据 量 的 V2 但 不 能 小 于 2 个 MSS) 。 然 后 将 拥塞 窗口 设置 为 
临界 窗口 值 加 3 个 MSS， 继 续 保留 在 拥塞 避免 阶段 。 这 个 过 程 称 为 快速 
恢复 ， 其 拥塞 窗口 的 变化 大 概 可 以 用 图 8 表示 。 
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图 8 


不 知道 你 是 否 想 到 过 一 个 更 复杂 的 情况 一 很 多 时 候 丢 的 包 并 不 只 一 
个 。 比 如 图 9 中 2 号 和 3 号 包 丢失 ， 但 1、4、5、6、7、8 号 都 到 达 了 接收 
方 并 触发 Ack 2。 对 于 发 送 方 来 说 ， 只 能 通过 Ack 2 知道 ?号 包 丢失 了 ， 
但 并 不 知道 还 有 哪些 包 丢失 。 在 重 传 了 2 号 包 之 后 ， 接 下 来 应 该 传 哪 一 


个 呢 ? 


丢 包 触发 快速 重 传 


0 让 上 wb 吕 一 





发 送 方 接收 方 


图 9 


方案 1. 不 管 三 七 二 十 一 ， 把 3、4、5、6、7、8 号 等 6 个 包 都 重 传 一 
遍 。 这 ”个 方案 简单 直接 ， 但 是 丢 一 个 包 的 后 果 就 是 多 个 包 被 重 传 ， 效 
率 较 低 。 早 期 的 TCP 协 议 就 是 这 样 处 理 的 。 

方案 2. 接收 方 收 到 重 传 过 来 的 2 号 包 之 后 ， 会 回复 一 个 Ack 3, 因 


此 发 送 方 可 以 推理 出 3 号 包 也 丢 了 ， 把 它 也 重 传 一 遍 。 当 接收 方 收 到 重 
传 的 3 号 包 之 后 ， 因 为 丢 包 的 写 府 都 补 满 了 ， 所 以 回复 一 个 Ack 9， 从 此 
发 送 方 就 可 以 传 新 的 包 ( 包 号 9、10、11、.…… ) 了 。 这 个 方案 称 为 
NewReno， 由 RFC 2582 和 RFC 3782 定 义 。NewReno 在 本 例 中 看 上 去 很 
理想 ， 但 我 们 可 以 想见 当 丢 包 量 很 大 的 时 候 ， 就 需要 花费 多 个 RTT〔〈 往 
返 时 间 ) 来 重 传 所 有 丢失 的 包 。 

方案 3， 接 收 方 在 Ack ”2 号 包 的 时 候 ， 顺 便 把 收 到 的 包 号 告诉 发 送 
方 。 所 以 这 些 Ack 包 应 该 是 这 样 

收 到 4 号 包 时 ， 告 
收 到 5 号 包 时 ， 
收 到 6 号 包 时 ， 








我 已 经 收 到 4 号 ， 请 给 我 2 号 。” 
“我 已 经 收 到 4、5 号 ， 请 给 我 2 号 。” 
: “我 已 经 收 到 4、5、6 号 ， 请 给 我 2 


Es 
告 

Es 
告 





号 。 


因此 发 送 方 对 丢 包 细节 了 如 指 掌 ， 在 快速 重 传 了 2 号 包 之 后 ， 它 可 
以 接着 传 3 号 ， 然 后 再 传 9 号 包 。 这 个 非常 直观 的 方案 称 为 SACK， 由 
RFC 2018 定 义 。 

图 10 是 在 真实 环境 中 抓 到 的 SACK 实 例 。 把 “SACK=992461- 
996175” 和 “Ack=991851” 两 个 条 件 综合 起 来 ， 发 送 方 就 知道 992461 一 
996175 已 经 收 到 了 ， 而 前 面 的 991851 一 992460 反 而 没收 到 。 








图 10 


本 文 的 信息 量 有 点 大 ， 你 也 许 需要 一 些 时 间 来 消化 它 。 有 些 部 分 一 
时 理解 不 了 也 无 妨 ， 即 便 只 记 住 本 文 导出 的 几 个 结论 ， 在 工作 中 也 是 很 
有 用 的 。 


。 没有 拥塞 时 ， 发 送 窗口 越 大 ， 性 能 越 好 。 所 以 在 带宽 没有 限制 的 
条 件 下 ， 应 该 尽量 增 大 接收 窗口 ， 比 如 启用 Scale Option (Windows 上 可 
参考 KB 224829) 。 





生 拥塞 ， 那 限制 发 送 窗口 反而 能 提高 性 能 ， 因 为 即便 
万 分 之 一 的 重 传 对 性 能 的 影响 都 很 大 。 在 很 多 操作 系统 上 可 以 通过 限制 
接收 窗口 的 方法 来 减 小 发 送 窗口 ，Windows 上 同样 可 以 参考 KB 
224829。 


。 超时 重 传 对 性 能 影响 最 大 ， 因 为 它 有 一 段 时 间 (RTO) 没有 传输 
任何 数据 ， 而 且 拥塞 窗口 会 被 设 成 1 个 MSS， 所 以 要 尽量 避免 超时 重 
传 。 


。 快速 重 传 对 性 能 影响 小 一 些 ， 因 为 它 没有 等 待 时 间 ， 而 且 拥塞 窗 
口 减 小 的 幅度 没 那么 大 。 


“SACK 和 NewReno 有 利于 提高 重 传 效率 ， 提 高 传输 性 能 。 


。 丢 包 对 极 小 文件 的 影响 比 大 文件 严重 。 因 为 读 写 一 个 小 文件 需要 
的 包 数 很 少 ， 所 以 丢 包 时 往往 趴 不 满 3 个 Dup ”Ack， 只 能 等 待 超时 重 传 
了 。 而 大 文件 有 较 大 可 能 触发 快速 重 传 。 下 面 的 实验 显示 了 同样 的 丢 包 
率 对 大 小 文件 的 不 同 影响 ， 图 11 中 的 test 是 包含 很 多 小 文件 的 目录 ， 而 
图 12 的 hi 是 一 个 大 文件 。 发生 丢 包 时 前 者 耗 时 增加 了 7 倍 多 ， 而 后 者 只 
增加 了 不 到 4 倍 。 











图 11 














图 12 


延迟 确认 与 Nagle 算 法 


没有 令 你 感 





不 知道 前 两 篇 的 内 容 降 ? 幸好 ， 这 一 F 可 以 
种 论 织 TCP 窗 口 无 关 的 话题 了 

大 块 的 数据 传输 ， 比 如 读 
发 送 窗口 的 大 小 ， 因 为 发 包 量 


多 ， 比如 用 


















也 了 很 小 梁 笋 注 下 当 








究 其 原 
服务 器 也 随 





打 成 TCP 包 传 到 服务 器 上 
即 进行 回复 。 

假如 把 这 个 过 程 的 包 抓 下 来 ， 会 看 到 很 多 小 包 频繁 来 往 
服务 器 之 间 。 这 种 方式 其 实 是 很 低 效 的 ， 因 为 一 个 包 的 TC 
少 就 40 字 节 ， 而 携带 的 数据 却 只 有 一 个 这 就 像 快 






去 送 一 个 小 包 庄 一 样 浪费 。 

我 做 了 一 个 实验 来 研究 这 个 现象 。 先 在 Putty 上 缓慢 地 输入 3 个 字 
符 *j"， 每 次 按键 的 间隔 在 300 毫 秒 以 上 ， 这 时 候 Wireshark 抓 到 了 前 9 个 
包 。 接 着 我 快速 敲 击 键盘 ，Wireshark 又 抓 了 后 面 的 包 ，Wireshark 截 屏 
如 图 1 所 示 。 





前 3 个 包 的 解说 如 下 。 

客户 端 : “我 想 给 你 发 个 加 密 后 的 字符 宁 。” 

服务 器 : “我 收 到 字符 宁 了 ， 你 可 以 把 它 显示 出 来 。” 

客户 端 : “知道 了 。” 

5、6 号 包 ， 以 及 7、8、9 号 包 也 是 一 样 的 情况 
i10.32.200.43 放 在 上 海 ， 而 服务 器 10.32.23.55 位 于 悉尼 ， 
它们 之 间 的 往返 时 间 大 概 是 150 毫 秒 。 由 于 这 些 包 是 在 客户 端 收集 的 ， 
所 以 1 号 包 和 2 号 包 相 差 150 毫 秒 是 正常 现象 。 奇 怪 的 是 客户 端 收 到 2 号 包 
之 后 ， 竟 然 等 待 了 大 约 200 毫 秒 才 发 出 3 号 包 。 本 来 是 1 毫秒 之 内 可 以 完 
成 的 事 ， 为 什么 要 等 这 么 久 呢 ? 再 看 看 5 号 和 6 号 之 间 ， 以 及 8 号 和 9 号 之 
间 ， 也 是 大 概 相 差 200 毫 秒 。 

这 其 实 就 是 TCP 处 理 交 互 式 场景 的 策略 之 一 ， 称 为 延迟 确认 。 该 策 
略 的 原理 是 这 样 的 ， 如 果 收 到 一 个 包 之 后 暂时 没什么 数据 要 发 给 对 方 ， 
那 就 延迟 一 段 时 间 〈 在 Windows 上 默认 为 200 毫 秒 ) 再 确认 。 假 如 在 这 
段 时 间 里 恰好 有 数据 要 发 送 ， 那 确认 信息 和 数据 就 可 以 在 一 个 包 里 发 出 
去 了 。 第 12 号 包 就 恰好 符合 这 个 策略 ， 客 户 端 收 到 11 号 包 之 后 ， 等 了 41 









毫秒 左右 时 我 又 输入 一 个 字符 。 结 果 这 个 字符 和 对 11 号 包 的 确认 信息 就 
一 起 装 在 12 号 包 里 了 。 

延迟 确认 并 没有 直接 提高 性 能 ， 它 只 是 减少 了 部 分 确认 包 ， 减 轻 了 
网 络 负担 。 有 时 候 延 迟 确认 反而 会 影响 性 能 。 微 软 的 KB 328890 提供 了 
关闭 延迟 确认 的 步 又。 我 在 另 一 台 客 户 端 10.32.200.131 上 实施 这 些 步骤 
后 ， 结 果 如 图 2 所 示 ， 果 然 不 到 1 毫秒 就 发 确认 了 (参见 6 号 包 和 7 号 包 的 
时 间 差 ) 。 








仔细 看 图 1 和 图 2， 会 发 现 每 个 SSH ”Request 都 是 52 字 节 ， 这 表明 它 
只 包含 了 一 个 加 密 的 字符 。 虽 然 在 图 1 的 12 号 到 18 号 包 之 间 的 100 毫 秒 里 
(还 不 到 一 个 往返 时 间 ) ， 我 一 共 输入 了 7 个 字符 ， 但 这 些 字符 也 被 逐 
个 打 成 小 包 了 。 能 不 能 设计 一 个 缓冲 机 制 ， 把 一 个 往返 时 间 里 生成 的 小 
数据 收集 起 来 ， 合 并 成 一 个 大 包 呢 ? Nagle 算 法 就 实现 了 这 个 功能 。 这 
个 算法 的 原理 是 : 在 发 出 去 的 数据 还 没有 被 确认 之 前 ， 假 如 又 有 小 数据 
生成 ， 那 就 把 小 数据 收集 起 来 ， 凑 满 一 个 MSS 或 者 等 收 到 确认 后 再 发 
送 。 图 3 是 我 启用 Nagle 之 后 的 新 实验 ， 第 一 个 包 把 我 输入 的 第 一 个 字符 
发 出 去 了 。 在 收 到 确认 包 之 前 的 150 毫 秒 里， 我 又 输入 6 个 字符 。 这 6 个 
字符 并 没有 被 逐个 发 送 ， 而 是 被 收集 起 来 ， 等 收 到 2 号 包 之 后 ， 从 3 号 包 
据 长 度 是 312 字 节 。 








和 延迟 确认 一 样 ，Nagle 也 没有 直接 提高 性 能 ， 启 用 它 的 作用 只 是 
提高 传输 效率 ， 减 轻 网 络 负担 。 在 某 些 场合 ， 比 如 和 延迟 确认 一 起 使 用 
时 甚至 会 降低 性 能 。 微 软 也 有 篇 KB 指导 如 何 关闭 Nagle， 但 是 一 般 没 有 
这 个 必要 ， 原 因 之 一 是 很 多 软件 已 经 默认 关闭 Nagle 了 。 比 如 打开 
Putty， 到 “Connection” 选 项 里 可 见 “Disable Nagle"s algorithm” 默 认 就 是 选 
中 的 ， 如 图 4 所 示 。 
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我 启用 Nagle 的 另 一 个 原因 是 ， 很 多 高 手 说 自己 解决 过 Nagle 所 导致 
的 问题 。 我 希望 自己 也 能 磁 上 一 回 ， 这 样 以 后 伪装 成 高 手 时 就 有 谈资 
了 ， 可惜 目前 为 止 还 没 机 会 碰 到 。 我 曾经 拿 到 过 图 5 所 示 的 一 个 包 ， 据 
说 是 Nagle 导 致 了 写 文 件 很 慢 。 之 所 以 定位 到 Nagle， 是 因为 客户 端 收 
到 “SetInfo Response” 之 后 ， 要 等 上 100 多 毫秒 再 发 送 下 一 个 “SetInfo 





我 一 开始 非常 高 兴 ， 以 为 终于 碰 到 一 回 了 。 仔 细 一 看 非常 失望 ， 因 
为 这 个 症状 并 不 符合 Nagle 的 定义 。Nagle 是 在 没收 到 确认 之 前 先 收集 数 
据 ， 一 旦 收 到 确认 就 立即 把 数据 发 出 去 ， 而 不 是 等 100 多 毫秒 之 后 再 
发 。 如 果 说 这 个 现象 是 延迟 确认 还 更 接 j 但 也 不 正确 。 它 实际 是 
应 用 层 的 一 个 bug 导 致 的 ， 换 了 个 SMB 版 本 就 消失 了 ， 我 就 这 样 
错失 了 一 次 伪装 成 高 手 的 机 会 。 


百家争鸣 


离职 不 久 的 老 同 事 给 我 发 来 一 条 短信 :“ 阿 满 ， 能 否 解释 一 下 
Westwood 和 Vegas 等 TCP 算 法 的 差别 ? ” 

这 个 问题 让 我 颇 感 意外 。 真 是 士 别 三 日 ， 当 刮目相看 ， 怎 么 才 跳 模 
没 几 天 就 研究 到 如 此 洋气 上 档次 的 方向 了 ? 不 过 转念 一 想 ， 假 如 新 
工作 是 设计 一 个 网 络 平台 ， 那 还 是 很 有 必要 知道 这 些 知识 的 ， 因 为 不 同 
的 场景 适合 不 同 的 TCP 算 法 。 而 要 了 解 这 些 算法 ， 就 得 从 TCP 最 原始 的 
设计 开始 讲 起 。 最 早 系统 性 地 阐述 了 慢 启动 、 拥 塞 避免 和 快速 重 传 等 算 
法 的 并 非 RFC， 而 是 1993 年 年 底 出 版 的 奇 书 《TCP/IP Illustrated, Volume 
1: The Protocols》， 作 者 是 我 以 前 提 到 过 的 一 位 教父 级 人 物 一 一 Richard 
Stevens。 直 到 1997 年 ， 这 本 书 中 的 内 容 才 被 复制 到 了 RFC 2001 中 。 我 
第 一 次 读 到 这 些 算法 时 拍案 叫绝 ， 完 全 不 知道 还 有 优化 之 处 。 比 如 书 中 
介绍 了 一 个 叫 “ 临 界 窗口 值 "的 概念 ， 当 拥塞 窗口 处 于 临界 窗口 值 以 下 
时 ， 就 用 增 速 较 快 的 慢 启动 算法 ， 当 拥塞 窗口 升 到 临界 窗口 值 以 上 时 ， 














则 改 用 增 速 较 慢 的 拥塞 避免 算法 。 从 图 1 可 见 ， 临 界 窗口 前 后 的 斜率 有 
明显 的 变化 。 这 个 机 制 有 利于 拥塞 窗口 在 最 短 时 间 到 达 高 位 ， 然 后 保持 
尽 可 能 长 的 时 间 才 触 碰 拥 塞 点 ， 思 路 还 是 很 科学 的 。 








图 1 


那 临界 窗口 应 该 如 何 取 值 才 合 理 呢 ? 我 能 想到 的 ， 就 是 在 带宽 大 的 
环境 中 取得 大 一 些 ， 在 带宽 小 的 环境 中 取得 小 一 些 。RFC 2001 也 是 这 样 
建议 的 ， 它 把 临界 窗口 值 定义 为 发 生 丢 包 时 拥塞 窗口 的 一 半 大 小 。 我 们 
可 以 想象 在 带宽 大 的 环境 中 ， 发 生 丢 包 时 的 拥塞 窗口 往往 也 比较 大 ， 所 
以 临界 窗口 值 自然 会 随 之 加 大 。 可 以 用 下 面 的 例子 来 加 以 说 明 。 

图 2 在 拥塞 窗口 为 16 个 MSS 时 发 生 了 丢 包 ， 而 图 3 在 拥塞 窗口 为 8 个 
MSS 时 就 丢 包 了 ， 说 明 当时 图 2 中 的 带宽 很 可 能 比 图 3 中 的 大 。 根 据 RFC 
2001， 我 们 希望 接 下 来 图 2 的 拥塞 窗口 能 快速 恢复 到 临界 窗口 值 16/2=8 
个 MSS， 然 后 再 缓慢 增加 ， 也 希望 图 3 中 的 拥塞 窗口 能 快速 恢复 到 临界 
窗口 值 82=4 个 MSS， 然 后 再 缓慢 增加 。 这 样 做 的 结果 就 是 图 2 的 拥塞 窗 
口 比 图 3 的 增长 得 更 快 ， 更 配 得 起 它 的 带宽 。 以 上 这 些 分 析 ， 看 上 去 很 
有 道理 吧 ? 
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图 3 


有 些 聪明 人 就 不 认同 以 上 分 析 。 比 如 有 一 位 叫 Saverio Mascolo 的 意 
大 利 人 看 了 这 个 算法 之 后 ， 觉 得 太 简单 粗暴 了 。 真 实 环境 的 丢 包 状况 比 
上 面 的 例子 复杂 得 多 ， 比 如 在 相同 大 小 的 拥塞 窗口 中 ， 有 时 候 丢 包 的 比 
例 大 ， 有 时 候 丢 包 的 比例 小 ， 统 一 按照 拥塞 窗口 的 一 半 取 值 是 不 理想 
的 。 我 们 可 以 看 看 下 面 这 个 例子 。 

图 4 和 图 5 在 发 生 丢 包 时 的 拥塞 窗口 都 是 16 个 MSS， 不 过 图 4 丢 了 4 个 
包 ， 而 图 5 丢 了 12 个 。 如 果 按 照 RFC 2001 的 算法 ， 两 边 的 临界 窗口 值 都 
应 该 被 定义 为 16/2=8 个 MSS。 这 显然 是 不 合理 的 ， 因 为 图 4 丢 了 4 个 包 ， 
图 5 丢 了 12 个 ， 说 明 当时 图 4 的 带宽 很 可 能 比 图 5 的 大 ， 应 该 把 临界 窗口 
值 设 得 比 图 5 的 大 才 对 。 归 纳 一 下 ， 理 想 的 算法 应 该 是 先 推算 出 有 多 少 
包 已 经 被 送 达 接收 方 ， 从 而 更 精确 地 估算 发 生 拥塞 时 的 带宽 ， 最 后 再 依 
据 带宽 来 确定 新 的 拥塞 窗口 。 那 么 如 何 知道 哪些 包 被 送 达 了 呢 ? 熟悉 
TCP 协 议 的 读者 应 该 想到 了 一 可 以 根据 接收 方 回应 的 Ack 来 推算 。 于 是 
不 安 分 的 Saverio 先 生 依 据 这 个 理论 提出 了 Westwood 算 法 〈 当 然 实施 起 
来 不 是 我 说 的 这 么 简单 ) ， 后 来 又 升级 为 Westwood+。 
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图 5 


从 设计 理念 就 可 以 看 出 ， 当 丢 包 很 轻微 时 ， 由 于 Westwood 能 估算 
出 当时 拥塞 并 不 严重 ， 所 以 不 会 大 幅度 减 小 临界 窗口 值 ， 传 输 速度 也 能 
得 以 保持 。 在 经 常 发 生 非 拥塞 性 丢 包 的 环境 中 《〈 比 如 无 线 网 络 ) ， 
Westwood 最 能 体现 出 其 优势 。 目 前 关于 Westwood 的 研究 有 很 多 ， 我 其 
至 能 找到 不 少 中 文 论文 ， 实 际 中 也 有 应 用 ， 比 如 部 分 Linux 版 本 就 用 到 
了 它 。 我 一 向 有 “人 肉 "TT 界 牛人 的 习惯 ，Saverio 先 生 当然 也 在 列 。 不 过 
当 我 打开 他 的 主页 时 ， 发 现 都 是 意大利 文 ， 只 好 作罢 。 

这 里 要 插播 一 个 有 趣 的 情况 。RFC 2581 也 同样 改进 了 RFC 2001 中 
关于 临界 ”窗口 值 的 计算 公式 ， 把 原先 “拥塞 窗口 的 一 半 ” 改 为 FlightSize 
的 一 半 ， 其 中 FlightSize 的 定义 是 “The amount of data that has been sent 
but not yet acknowledged (已 发 送 但 未 确认 的 数据 量 ) 。” 如 果 根 据 这 个 
定义 ， 我 们 会 惊奇 地 算出 图 4 的 临界 窗口 值 为 42=2 MSS， 而 图 5 的 临界 
窗口 值 为 12/2=6 MSS。 这 跟 * 图 4 应 该 大 于 图 5" 的 期 望 是 完全 相反 的 ， 难 
道 RFC 2581 有 错误 ? 这 可 是 经 过 无 数 人 检验 过 的 著名 文档 。 我 曾经 志 起 
不 安 地 把 这 个 问题 发 给 过 几 位 国外 同行 ， 说 “Could you confirm if there is 
any problem with my brain or RFC 2581?” 幸 好 得 到 的 答复 大 多 认为 我 的 
大 脑 是 正常 的 ， 他 们 也 认为 这 个 算法 有 问题 。 最 后 有 一 位 大 牛 现 身 ， 说 
我 们 对 RFC 2581 的 要 求 太 高 了 ， 当 初 设计 的 时 候 根本 没 考虑 这 么 多 。 引 
进 FlightSize 只 是 为 了 得 到 一 个 安全 的 临界 窗口 值 ， 而 不 是 像 
Westwood+ 一 样 追求 比较 理想 的 窗口 。 

接 下 来 我 们 说 说 Vegas 算法 。 如 果 说 Westwood 只 是 对 TCP 进 行 了 细 
节 性 的 、 改 良性 的 优化 ，Vegas 则 引入 了 一 个 全 新 的 理念 。 本 书 之 前 介 
绍 过 的 所 有 算法 ， 都 是 在 丢 包 后 才 调节 拥塞 窗口 的 。Vegas 却 独 辟 蹊 
径 ， 通 过 监控 网 络 状态 来 调整 发 包 速度 ， 从 而 实现 真正 的 “拥塞 避免 ”。 
它 的 理论 依据 也 并 不 复杂 : 当 网 络 状 况 良 好 时 ， 数 据 包 的 RTT〔 往 返 时 
间 ) 比较 稳定 ， 这 时 候 就 可 以 增 大 拥塞 窗口 ， 当 网 络 开始 繁忙 时 ， 数 据 
包 开 始 排队 ，RTT 就 会 变 大 ， 这 时 候 就 需要 减 小 拥塞 窗口 了 。 该 设计 的 








最 大 优势 在 于 ， 在 拥塞 真正 发 生 之 前 ， 发 送 方 已 经 能 通过 RTT 预 测 到 ， 
并 且 通 过 减缓 发 送 速度 来 避免 竺 包 的 发 生 。 
与 别 的 算法 相 比 ，Vegas 就 像 一 位 敏感 
当 环境 中 所 有 发 送 方 都 使 用 Vegas 时 
定 、 扩 ， 因 为 几乎 没有 丢 包 会 发 生 。 而 当 环境 中 存在 Vegas 和 其 
他 算法 时 ， 使 用 Vegas 的 发 送 方 可 能 是 性 能 最 差 的 ， 因 为 它 最 早 探测 到 
网 络 繁忙 ， 然 后 主动 降低 了 自己 的 传输 速度 。 这 一 让 步 可 能 就 释放 了 网 
络 的 压力 ， 从 而 避免 其 他 发 送 方 遭 遇 丢 包 。 这 个 情况 有 点 像 开车 ， 如 果 
路 上 每 位 司机 的 车 品 都 很 好 ， 谦 让 守 规 矩 ， 则 整体 交通 状况 良好 ;而 如 
果 一 位 车 品 很 好 的 司机 跟 一 群 车 品 很 差 的 司机 一 起 开车 ， 则 可 能 被 频繁 
加 塞 ， 最 后 成 了 开 得 最 慢 的 一 个 。 

除了 本 文 提 到 的 Westwood 和 Vegas， 还 有 很 多 有 意思 的 TCP 算 法 。 
比如 Windows 操 作 系统 中 用 到 的 Compound 算 法 就 同时 维持 了 两 个 拥塞 
窗口 ， 其 中 一 个 类 似 Vegas， 另 一 个 类 似 RFC 2581， 但 真正 起 作用 的 是 
两 者 之 和 。 所 以 说 Compound 走 的 是 中 庸 之 道 ， 在 保持 谦让 的 前 提 下 也 
不 失 进 取 。 在 Windows 7 上 ， 默 认 情况 下 Compound 算 法 是 关闭 的 ， 我 们 
可 以 通过 下 面 的 命令 来 启用 它 。 
netsh interface tcp set global congestionprovider=ctcp 

启用 之 后 如 果 觉 得 不 合适 ， 可 以 通过 以 下 命令 来 关闭 。 
netsh interface tcp set global congestionprovider=none 


图 6 是 在 我 的 实验 机 上 启用 的 过 程 。 
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图 6 





Linux 操 作 系 统 则 在 不 同 的 内 核 版 本 中 使 用 不 同 的 默认 TCP 算 法 ， 
比如 Linux kernels 2.6.18 用 到 了 BIC 算 法 ， 而 Linux kernels 2.6.19 则 升级 
到 了 CUBIC 算 法 。 后 者 比 前 者 的 行为 保守 一 些 ， 因 为 在 网 络 状况 非常 煤 
下 ,保守 一 点 的 性 能 反而 更 好 。 

在 过 去 几 十 年 里 ， 虽 然 TCP 从 来 没有 遇 到 过 对 手 ， 不 过 它 自己 已 经 
演化 出 无 数 分 身 ， 形 成 百家争鸣 的 局 面 。 本 文 无 法 一 一 列举 所 有 的 算 
到 的 也 如 晴 晓 点 水 ， 假 如 你 想 为 自己 的 网 络 平台 选取 其 中 一 种 ， 
还 需要 多 多 研究 。 














简单 的 代价 一 -UDP 


说 到 UDP， 就 不 得 不 拿 TCP 来 对 比 。 谁 叫 它们 是 竞争 对 手 呢 ? 
前 文 提 到 过 UDP 无 需 连 接 ， 所 以 非常 适合 DNS 查询 。 图 1 和 图 2 是 分 






别 在 基于 UDP 和 TCP 时 执行 DNS 查询 的 两 个 包 ， 前 者 明显 更 加 直 截 了 
当 ， 两 个 包 就 完成 了 。 
基于 UDP 的 查询 : 


430,32 106.139 29.3 on 103 2 be.a3 1037132.801422 ES Seadord deery A Psdy_cifEnascanl 





UDP 为 什么 能 如 此 直接 呢 ? 其 实 是 因为 它 设计 简单 ， 想 复杂 起 来 都 
没 办 法 一 在 UDP 协议 头 中 ， 只 有 端口 号 、 包 长 度 和 校 验 码 等 少量 信息 ， 
总 共 就 8 个 字 节 。 小 巧 的 头 部 给 它 带 来 了 一 些 优点 。 


。 由 于 UDP 协议 头 长 度 还 不 到 TCP 头 的 一 半 ， 所 以 在 同样 大 小 的 包 
里 ，UDP 包 携带 的 净 数 据 比 TCP 包 多 一 些 。 


*。 由 于 UDP 没有 Seq 号 和 Ack 号 等 概念 ， 无 法 维持 一 个 连接 ， 所 以 省 
去 了 建立 连接 的 负担 。 这 个 优势 在 DNS 查询 中 体现 得 淋 滴 尽 致 。 


当然 简单 的 设计 不 一 定 是 好 事 ， 更 多 的 时 候 会 带 来 问题 。 
1，UDP 不 像 TCP 一 样 在 乎 双方 MTU 的 大 小 。 它 拿 到 应 用 层 的 数据 
之 后 ， 直 接 打 上 UDP 头 就 交 给 下 一 层 了 。 那 么 超过 MTU 的 时 候 怎么 


办 ? 在 这 种 情况 下 ， 发 送 方 的 网 络 层 负责 分 片 ， 接 收 方 收 到 分 片 后 再 组 
装 起 来 ， 这 个 过 程 会 消耗 资源 ， 降 低 性 能 。 图 3 是 一 个 32 KB 的 写 操作 ， 
根据 发 送 方 的 MTU 被 切 成 了 23 个 分 片 。 





图 3 


2. UDP 没 有 重 传 机制 ， 所 以 丢 包 由 应 用 层 来 处 理 。 如 下 面 的 例子 
所 示 ， 某 个 写 操作 需要 6 个 包 完成 。 当 基于 UDP 的 写 操作 中 有 一 个 包 备 
失 时 ， 客 户 端 不 得 不 重 传 整个 写 操作 (6 个 包 ) 。 相 比 之 下 ， 基 于 TCP 
的 写 操作 就 好 很 多 ， 只 要 重 传 丢 失 的 那 1 个 包 即 可 。 

基于 UDP 的 NFS 写 操作 ( 见 图 4): 
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服务 器 天 法 李 半 此 纪 ， 
所 以 策应 


客 记 滑 竺 不 到 响应， 
只 人 从头 再 写 一 次 
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图 4 


基于 TCP 的 NFS 写 操作 ( 见 图 5》: 








NFS 写 请 








图 5 


也 许 从 这 个 例子 你 还 感受 不 到 明显 的 差别 ， 试 想 一 下 ， 在 高 性 能 环 
境 中 ， 一 个 写 操作 需要 数 十 个 包 来 完成 ，UDP 的 劣势 就 体现 出 来 了 。 

3. 分 片 机 制 存在 弱点 ， 会 成 为 黑客 的 攻击 目标 。 接 收 方 之 所 以 知 
道 什 么 时 候 该 把 分 片 组 装 起 来 ， 是 因为 每 个 包 里 都 有 “More 
fragments" 的 flag。1 表 示 后 续 还 有 分 片 ，0 则 表示 这 是 最 后 一 个 分 片 ， 可 
以 组 装 了 。 如 A 速 地 发 送 flag 为 1 的 UDP 包 ， 接 收 方 一 直 无 法 
把 这 些 包 组 装 起 来 ， 就 有 可 能 耗 尽 内 存 。 图 6 左边 是 NFS 写 操作 中 7 一 28 
号 分 片 的 flag， 右 边 是 29 号 分 片 ( 最 后 一 个 分 片 ) 的 flag。 

eae i Ors Ra a Flags: ou ee 


“0. > pom’t fragnent’ Not Set ,人 ,> Don't fragnent: Hot Ser 
于 > Mare fraggents: Ser re fragments; No Ser 


图 6 








关于 UDP 就 简单 介绍 这 么 多 。 虽 然 我 觉得 这 个 协议 实在 没 多 少 可 谈 
的 ， 但 关于 UDP 和 TCP 的 争论 一 直 是 某 些 论坛 的 热门 话题 。 了 解 了 UDP 
的 工作 方式 ， 也 算 学 会 一 门 伪装 成 大 牛 的 手艺 。 下 次 再 有 人 宣称 "UDP 
的 性 能 比 TCP 更 好 "时 ， 你 可 以 不 紧 不 慢 地 告诉 他 , “也 不 尽 然 ， 我 来 给 
你 举 一 个 NFS 丢 包 的 例子 .……”。 


剖析 CIEFS 协 议 





前 文 介绍 过 一 个 文件 共享 协议 ， 即 Sun 设 计 的 NFS。 理 论 上 NFS 可 
以 应 用 在 任何 操作 系统 上 ， 但 是 因为 历史 原因 ， 现 实 中 只 在 Linux/UNIX 
上 流行 。 那 Windows 上 一 般 使 用 什么 共享 协议 呢 ? 它 就 是 微软 维护 的 
SMB 协 议 ， 也 叫 Common Internet File System (CIFS) 。CIFS 协 议 有 三 
个 版 本 : SMB、SMB2 和 SMB3， 目 前 SMB 和 SMB2 比 较 普遍 。 

在 Windows 上 创建 CIFS 共 享 非常 简单 ， 只 要 在 一 个 目录 上 右键 单 
击 ， 在 弹出 的 菜单 中 选择 属性 -> 共享 ， 再 配置 一 下 权限 就 可 以 了 。 如 
图 1 所 示 ， 在 其 他 电脑 上 只 要 输入 IP 和 共享 名 就 可 以 访问 它 了 。 
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我 在 读 大 学 的 时 候 ， 曾 经 把 整个 D 盘 共享 出 来 ， 没 想到 几 天 后 就 有 
雷锋 在 里 面 放 了 几 部 小 电影 。CIFS 在 企业 环境 中 应 用 非常 广泛 ， 比 如 映 
射 网 络 盘 或 者 共享 打印 机 ; 同事 间 共 享 资料 也 可 以 采用 这 种 方式 。 由 于 
使 用 CIFS 的 用 户 实在 太 多 ， 微 软 的 技术 支持 部 门 每 天 都 会 收 到 很 多 关于 
CIFS 问 题 的 咨询 〈 我 读 大 学 时 曾 在 那里 兼职 过 一 年 ) 。 

要 想 成 为 CIFS 方 面 的 专家 ， 就 必须 了 解 它 的 工作 方式 。 比 如 在 我 的 
实验 室 中 ， 客 户 端 10.32.200.43 打 开 共 享 文件 \10.32.106.72vdestuabc.txt 
时 ， 底 层 究竟 发 ” 生 了 什么 ? 借助 Wireshark， 我 们 可 以 把 这 个 过 程 看 得 
清 清楚 楚 。 

首先 ，CIFS 只 能 基于 TCP， 所 以 必定 是 以 三 次 握手 开始 的 。 从 图 2 
可 见 ， 











图 2 


接 下 来 的 第 一 个 CIFS 操 作 是 Negotiate (协商 ) 。 协 商 些 什么 呢 ? 请 
关注 图 3 的 底部 ， 可 见 客户 端 把 自己 支持 的 所 有 CIFS 版 本 ， 比 如 SMB2 
和 NT LM 0.12 (为 了 便于 和 SMB2 对 比 ， 接 下 来 我 们 称 它 为 SMB) 等 都 


发 给 服务 器 。 加 
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服务 器 从 中 挑 出 自己 所 支持 的 最 高 版 本 回复 给 客户 端 。 从 图 4 中 可 
知 ， 服 务 器 选择 的 是 NT LM 0.12 (SMB) ， 这 说 明了 该 服务 器 不 支持 
SMB2。 











图 4 


理解 了 协商 过 程 就 可 以 处 理 CIFS 版 本 相关 的 问题 了 。 比 如 我 接 到 过 
新 加 坡 某 银行 的 咨询 ， 他 们 想 知道 如 何 让 客户 端 A 和 服务 器 C 之 间 用 
SMB2 通 信 ， 而 客户 端 B 和 服务 器 C 之 间 用 SMB 通 信 。 我 的 建议 是 在 A 和 
C 上 都 启用 SMB2， 而 在 B 上 只 启用 SMB， 这 样 就 能 协商 出 想 要 的 结果 。 

协商 好 版 本 之 后 ， 就 可 以 建立 CIFS Session 了 ， 如 图 5 所 示 。 








图 5 


Session ”Setup 的 主要 任务 是 身份 验证 ， 常 用 的 方式 有 Kerberos 和 
NTLM (本 例 就 是 用 到 NTLM) 。 这 两 种 方式 都 非常 复杂 且 有 趣 ， 我 会 
另 写 一 篇 文章 专门 介绍 。 假 如 有 用 户 抱怨 访问 不 了 CIFS 服 务 器 ， 问 题 很 
可 能 就 发 生 在 Session Setup。 

Session ” Setup 过后， 意味 着 已 经 打开 \10.32.106.72 了 。 接 下 来 要 做 
的 是 打开 vdest 共 享 。 如 图 6 所 示 ， 这 个 操作 称 为 Tree Connect。 





点 开 这 两 个 Tree Connect 包 ， 最 有 价值 的 信息 当 属 服务 器 返回 的 
Tree ID 〈 如 图 6 底部 所 示 ) 。 从 此 之 后 客户 端 就 能 利用 这 个 ID 去 访 
问 /dest 共 享 的 子 目录 和 子 文 件 。 这 一 步 看 似 简 单 ， 但 初学 者 也 会 有 一 些 
疑问 。 
常见 问题 1: 如 果 用 户 无 权 访 问 此 目录 ， 会 不 会 在 Tree ”Connect 这 一 步 
失败 ? 

答案 : 不 会 。Tree Connect 并 不 检查 权限 ， 所 以 即便 是 无 权 访问 的 
用 户 也 能 得 到 Tree ID。 检查 权 限 的 工作 由 接 下 来 的 Create 操 作 完 成 。 
常见 问题 2: 某 用 户 已 经 打开 了 \\10. 32. 106. 72\dest\abc. txt， 如 果 还 
想 再 打开 \\10. 32. 106. 72\sourceNabc. txt， 需 要 再 建 一 个 TCP 连 接 吗 ? 

答案 : 没有 必要 ， 在 一 个 TCP 连 接 上 能 维持 多 个 打开 的 Tree 


Connect。 





过 了 Tree Connect 是 不 是 该 开始 读 abc.txt 了 ? 其 实 还 差 很 多 步骤 ， 接 
下 来 客户 端 还 要 在 服务 器 上 查询 很 多 信息 。 看 了 图 7 你 就 能 理解 为 什么 
人 们 都 嫌 CIFS 协 议 哪 嘻 了 。 








其 实 从 13 号 到 68 号 包 都 是 类 似 图 7 所 示 的 网 络 包 ， 图 7 只 显示 了 一 小 
部 分 ， 我 不 想 把 所 有 内 容 都 贴 出 来 浪费 纸张 。 这 些 包 查询 了 文件 的 基本 
属性 、 标 准 属性 、 扩 展 属性 ， 还 有 文件 系统 的 信息 等 。 幸 好 SMB2 对 此 
有 所 改进 。 

再 多 的 属性 也 有 查 完 的 时 候 ， 到 了 69 号 包 终于 看 到 Create 。 Request 
vabctxt 了 《 见 图 8) 。 





Create 是 CIFS 中 非常 重要 的 一 个 操作 。 无 论 是 新 建文 件 、 打 开 目 
录 ， 还 是 读 写 文件 ， 都 需要 Create。 有 时 候 我 们 因为 没有 权限 遭 
遇 *Access Denied" 错 误 ， 或 者 覆盖 文件 时 收 到 "File Already Exists" 提 
醒 ， 都 是 来 自 Create 这 个 操作 。 经 常 有 人 会 咨询 的 几 个 关于 Create 的 问 
题 如 下 所 示 。 
常见 问题 1: 如 果 \dest 的 权限 里 禁止 某 用 户 访问 ， 但 \dest\abc. txt 的 
权限 里 允许 该 用 户 访问 ， 那 他 打开 \\10. 32. 106. 72\dest\abc. txt 时 会 
不 会 失败 ? 

答案 : 如 果 该 用 户 先 打 开 W10.32.106.72\dest， 就 会 在 "NT Create 
\dest" 这 一 步 收 到 Access ”Denied 报 错 ， 当 然 就 无 法 再 进一步 打开 abctxt 


了 。 而 如 果 直接 在 地 址 栏 输入 \10.32.106.72vdestabc.txt， 则 可 以 跳 
过 “NT Create vdest" 这 一 步 ， 所 以 不 会 有 任何 报错 。 也 就 是 说 可 以 直接 
打开 子 文件 abc.txt， 却 打 不 开 上 级 文件 夹 \dest， 这 个 结果 可 能 是 很 多 人 
意 想不到 的 。 
常见 问题 2: Windows 的 Backup 0perators 组 中 的 用 户 有 权限 备份 所 有 
文件 ， 但 不 一 定 有 权限 读 文件 。 那 服务 器 是 怎么 知道 一 个 用 户 是 想 备份 
还 是 想 读 的 ? 

答案 : 备份 和 读 这 两 个 行为 的 确 非常 相似 ， 都 是 依靠 Read 操 作 来 完 
成 的 。 它 们 的 不 同 点 在 于 ， 备 份 的 时 候 在 Create 请 求 中 的 “Backup 
Intent" 设 为 1， 而 读 的 时 候 “Backup Intent" 设 为 0 (如 图 9 所 示 ) 。 服 务 器 
就 是 依靠 Ba up Intent 来 决定 是 否 允 许 访问 的 。 












图 9 


常见 问题 3: 如 果 多 个 用 户 一 起 访问 相同 文件 ，CIFS 如 何 处 理 冲突 ? 

答案 : 在 Create 请 求 中 有 Access Mask 和 Share Access Mask 两 个 选 
项 。 前者。 表示 该 用 户 对 此 文件 的 访问 方式 ( 读 、 写 、 删 等 ) ， 后 者 表 
示 该 用 户 允许 其 他 用 户 对 此 文件 的 访问 方式 。 举 个 例子 ， 用 户 A 发 送 的 
Create 请 求 中 ，Access Mask 是 “ 读 + Share Access Mask 是 “ 读 "， 表 示 
自己 要 读 和 写 ， 并 | 假如 接 下 来 用 户 B 也 发 送 
Access Mask 为 的 Create 请 求 ， 就 会 收 到 “Sharing ”Violation" 错 
误 ， 因 为 A 不 允许 其 他 人 写 。 

图 10 中 的 Access Mask 只 是 读 。 











注意 : 这 里 讨论 的 访问 冲突 指 的 是 CIFS 协 议 层 的 。 有些 应 用 软件 还 有 专 
门 的 机 制 防止 访问 冲突 ， 比 如 Word 和 Excel， 但 Notepad 就 没有 。 
常见 问题 4 CIFS 如 何 保证 缓存 数据 的 一 致 性 ? 

答案 : 客户 端 可 以 暂时 把 文件 缓存 在 本 地 ， 等 用 完 之 后 再 同步 回 服 
务 器 端 。 这 是 提高 性 能 的 好 办 法 ， 就 像 我 们 写 论文 时 ， 都 喜欢 把 图 书馆 
的 资料 借 回 来 ， 以 备 随时 查阅 。 假 如 不 这 样 做 ， 就 得 频繁 地 跑 图 书馆 查 
资料 ， 时 间 都 浪费 在 路 上 了 。 当 只 有 一 个 用 户 在 访问 某 文件 时 ， 在 客户 
端 缓存 该 文件 是 安全 的 ， 但 是 在 有 多 个 用 户 访问 同一 文件 的 情况 下 则 可 
能 出 现 问题 。CIFS 采 用 了 Oplock (机 会 锁 ) 来 解决 这 个 问题 。Oplock 有 
Exclusive、Batch 和 Level 2 三 种 形式 。Exclusive 人 允许 读 写 缓存 ，Batch 允 
许 所 有 操作 的 缓存 ， 而 Level 2 只 人 允许 读 缓存 。Oplock 也 是 在 Create 中 实 
现 的 ， 如 图 11 底 部 所 示 ， 该 客户 端 被 授予 Batch 级 别 的 机 会 锁 ， 表 示 他 
可 以 缓存 所 有 操作 。 











为 了 更 好 地 理解 Oplock 的 工作 方式 ， 我 们 假设 一 个 场景 来 说 明 。 


1， 用 户 A 用 Exclusive/Batch 锁 打开 某 文件 ， 然 后 缓存 了 很 多 修改 的 
文件 内 容 。 

2. 用 户 B 想 读 同一 个 文件 ， 所 以 发 了 Create 请 求 给 服务 器 。 

3， 如 果 此 时 服务 器 忽视 A 的 Oplock， 直 接 回复 B 的 请 求 ， 那 B 就 读 
不 到 被 A 修 改 后 的 内 容 〈 也 就 是 出 现 数据 不 一 致 ) 。 因 此 服务 器 通知 A 
释放 Exclusive/Batch 锁 ， 换 成 Level 2 锁 。 

4. A 立 即 把 缓存 里 的 修改 量 同步 到 服务 器 上 。 

5， 服 务 器 给 B 回 复 Create 响 应 ， 同 时 授予 其 Level 2 锁 。B 接 下 来 再 
发 读 请 求 ， 从 而 得 到 A 修改 后 的 文件 内 容 。 

到 了 Create 这 一 步 ， 距 离 TCP 连 接 的 建立 已 经 过 去 0.093 秒 。 虽 然 听 
上 去 很 短 ， 但 在 局 域 网 中 已 经 算是 很 长 一 段 时 间 了 。 这 段 时 间 足 够 我 实 
验 室 的 NFS 服 务 器 响应 45 个 64KB 的 读 操作 ， 而 本 例 中 的 读 操作 却 刚 要 
开始 ， 可 见 CIFS 协 议 有 多 曼 叶 。 这 让 我 想起 一 个 经 典 问题 , “为 什么 复 
制 一 个 1MB 的 文件 比 复制 1024 个 1KB 的 文件 快 很 多 ， 虽 然 它们 的 总 大 小 
是 一 样 的 ? "原因 就 是 读 写 每 个 文件 之 前 要 花费 很 多 时 间 在 琐碎 的 准备 
工作 上 。 一 个 1MB 的 文件 只 需要 准备 一 次 ， 而 1024 个 1KB 的 文件 却 需要 
1024 次 。 

从 包 号 71 开 始 ， 读 操作 终于 出 现 了 。 如 图 12 所 示 ，CIFS 的 读 行为 看 
上 去 和 NFS 非 常 相似 ， 都 是 从 某 个 offset 开 始 读 一 定数 量 的 字 节 。 文 件 的 
内 容 “Tneed a Vaca "能 从 包 里 直接 看 出 ， 说 明 传输 时 没有 加 密 。 

















还 有 很 多 有 趣 的 行为 是 从 这 两 个 包 里 看 不 出 来 的 ， 必 须 设计 一 些 实 
验 才能 归纳 出 来 。 比 如 下 面 几 个 常见 问题 ， 可 能 很 多 读者 会 感 兴 趣 。 
见 问题 1: 同样 是 用 SMB 协 议 读 一 个 文件 ，Windows XP 和 Windows 7 的 


表现 有 何不 同 ? 

答案 : 通常 一 个 新 的 操作 系统 发 布 时 ， 微 软 都 会 罗列 它 的 种 种 好 
处 ， 但 大 家 基本 上 听 听 就 过 去 了 ， 没 有 人 会 去 较真 。 我 仔细 对 比 了 
Windows XP 和 Windows 7 的 读 行为 之 后 ， 发 现 Windows 7 的 确 有 所 改 
进 。Windows XP 发 了 一 个 读 请 求 之 后 就 会 停 下 来 等 回复 ， 收 到 回复 后 
再 发 下 一 个 读 请 求 。 而 Windows 7 则 可 以 一 口气 发 出 多 个 读 请 求 ， 就 像 
NFS 一 样 。 下 面 是 在 这 两 种 操作 系统 上 读 同 一 个 文件 的 过 程 ， 两 者 的 差 
别 在 Wireshark 中 一 目 了 然 。 








见 图 13) : 


Windows 7 的 Requests 是 多 个 一 起 发 出 的 〈 见 图 14) 





这 两 种 读 方式 在 延迟 小 的 网 络 中 体现 不 出 差别 ， 在 带宽 小 的 环境 中 
差别 也 不 大 〔 因 为 发 送 窗口 小 ， 一 个 读 请 求 本 来 就 要 多 个 往返 才能 传 
完 ) 。 但 在 高 延迟 、 大 带宽 的 环境 中 就 很 不 一 样 了 ，Windows 7 的 性 能 
会 比 Windows ”XP 好 很 多 。 在 网 络 有 丢 包 的 情况 下 差别 还 会 更 大 ， 因 为 
Windows XP 比 Windows 7 更 容易 碰 到 超时 重 传 。 
常见 问题 2: 利用 Windows ”Explorer 从 CIFS 共 享 上 复制 文件 ， 为 什么 比 


Robooopy 和 EMCopy 之 类 的 工具 慢 很 多 ? 

} 案 : 如 果 复制 一 个 大 文件 可 ma 出 差别 的 ， 但 如 果 是 复制 一 
个 包含 大 量 小 文件 的 目录 ， 的 确 是 比 这 些 工 具 慢 很 多 。 这 是 因为 
Windows Explorer 是 逐个 文件 op (单线 程 )， 而 这 些 上 
制 多 个 文件 〈 多 线程 ) 。 比 如 上 文 提 到 的 前 0.093 秒 里 虽 
但 占用 带宽 极 少 ， 多 个 文件 并 行 操作 的 效率 会 多 。 下 面 两 个 图 是 
EMCopy 的 单线 程 和 双 线程 复制 同一 文件 夹 的 结果 ， 后 者 明显 要 快 得 

单线 程 的 复制 ( 见 图 15) ， 
















图 15 

















图 16 


常见 问题 3: 从 CIFS 共 享 里 复制 一 个 文件 ， 然 后 粘贴 到 同一 个 目录 里 ， 
为 什么 还 不 如 粘贴 到 客户 端的 本 地 硬盘 快 ? 

答案 : 前 者 需要 把 数据 从 服务 器 复制 到 客户 端的 内 存 里 ， 然 后 再 从 
客户 端的 内 存 写 到 服务 器 上 ， 相 当 于 读 + 写 两 个 操作 。 而 后 者 只 是 从 服 
到 本 地 硬盘 ， 相 当 于 网 络 上 只 有 读 操 





SMB3 对 此 有 了 本 质 上 的 改进 ， 可 以 完全 实现 服务 器 端的 本 地 复 
制 ， 这 样 前 者 反而 比 后 者 快 了 。 
常见 问题 4: 在 CIFS 共 享 上 剪 切 一 个 文件 ， 然 后 粘贴 到 同一 共享 的 子 目 
录 里 ， 为 什么 就 比 粘贴 到 本 地 硬盘 快 呢 ? 

答案 ， 在 相同 的 文件 系统 上 剪 切 、 粘 贴 ， 本 质 上 只 有 “rename” 操 
作 ， 并 没有 读 和 写 ， 所 以 是 非常 快 的。 请 看 图 18 的 抓 包 ， 该 操作 是 把 
abctxt 剪 切 到 一 个 叫 \test 的 子 目录 。 





常见 问题 5: 为 什么 在 Windows 7 上 启用 SMB2 之 后 ， 读 性 能 提高 了 很 多 ? 
答案 : 这 是 因为 SMB2 没有 SMB 那 么 曼 叶 。 从 图 19 可 见 ， 读 之 前 的 


查询 用 了 不 到 10 个 包 ， 而 SMB 往 往 要 用 数 十 个 包 来 查询 各 种 






网 络 江 湖 


有 人 的 地 方 就 有 恩怨 ， 有 恩怨 的 地 方 就 有 江湖 ，IT 圈 也 是 如 此 。 过 
去 十 几 年 里 ， 我 们 见证 了 摩托 罗拉 和 诺基亚 在 手机 行业 的 沉浮 ， 微 软 和 
苹果 在 个 人 电脑 领域 的 竞争 ， 还 有 Windows 和 Linux 操 作 系 统 在 数据 中 
心 领 域 的 角逐 。 在 以 后 的 岁月 里 ， 不 知道 还 有 多 少 业内 的 腥风血雨 等 着 
我 们 。 

俗话 说 内 行 看 门道 ， 外 行 看 热闹 。 作 为 技术 人 员 ， 我 们 能 看 到 的 明 
争 瞳 斗 比 其 他 人 更 多 ， 甚 至 能 从 协议 细节 中 看 到 高 手 过 招 的 痕迹 。 比 如 
说 Windows 和 Linux 之 争 ， 也 能 体现 在 它们 的 共享 协议 CIFS 和 NFS 上 。 本 
书 之 前 已 经 分 别 解析 过 它们 的 工作 方式 ， 这 里 再 来 探讨 它们 的 历史 和 发 
展 趋势 。 

早期 CIFS 协 议 的 设计 比 NFS 落 后 不 少 ， 其 至 可 以 看 到 一 些 “ 不 专 
业 ” 的 痕迹 。 我 个 人 意见 最 大 的 有 两 点 。 


， 早 期 CIFS 协 议 非 常 嘱 吴 ， 这 一 点 在 前 面 的 《 齐 析 CIFS 协 议 》 一 文 
中 已 有 详解 。 比 如 打开 一 个 文件 之 前 竟然 需要 50 多 个 包 的 来 回 ， 部 分 网 
络 包 如 图 1 所 示 。 








。 早期 CIFS 协 议 的 读 写 操作 都 是 同步 方式 的 。 如 图 2 所 示 ， 它 只 会 
在 收 


到 上 一 个 读 响应 (Read AndX Response) 之 后 ， 才 发 出 下 一 个 读 请 
求 (Read AndX Request) 。 这 种 方式 的 带宽 利用 率 很 低 ， 因 为 很 可 能 


TCP 发 送 窗口 还 没有 用 完 ， 一 个 操作 就 完成 了 。CIFS 的 设计 人 员 当 时 可 
能 没有 考虑 到 网 络 带宽 的 快速 发 展 。 








早期 的 NFS 上 就 没有 这 个 问题 ， 如 图 3 所 示 ， 多 个 读 请 求 被 一 起 发 
出 去 了 (也 可 以 说 是 异步 的 ) 。 





幸好 CIFS 很 快 就 向 NFS 学 习 ， 等 到 Windows 7 出 来 的 时 候 ， 这 两 个 
问题 都 解决 了 。 当 然 早期 的 NFS 协 议 也 有 落后 的 地 方 ， 比 如 对 文件 属性 
的 管理 过 于 简单 。 但 到 了 NEFSv4 面 世 的 时 候 ， 也 已 经 和 CIFS 趋 同 了 。 这 
些 江湖 暗 斗 只 有 专业 人 士 才 能 感觉 到 。 

竞争 往往 能 激发 意 想 不 到 的 创造 力 ， 这 两 个 协议 的 新 特性 就 是 如 此 
产生 的 。 无 论 是 早期 的 CIFS 还 是 NFS， 每 个 操作 都 是 在 各 自 的 网 络 包 中 
完成 的 。 即 便 不 太 罗 咏 的 NFS 协 议 在 读 一 个 文件 之 前 ， 也 需要 通过 
READDIRPLUS 操 作 获 得 其 File Handle FH) ， 再 通过 GETATTR 操 作 
获得 该 File Handle 的 属性 ， 最 后 通过 ACCESS 和 READ 操 作 打开 文件 。 图 
4 显示 了 READ 之 前 三 个 RTT (往返 时 间 ) 。 








相 比 起 CIFS， 这 已 经 可 以 算是 极 简 主义 了 。 不 过 NFSv4 中 又 提出 了 
一 个 全 新 的 理念 ， 称 为 "COMPUND CALL”( 复 合 请 求 ) 。 客 户 端 可 以 
把 多 个 请 求 放 在 一 个 包 中 发 给 服务 器 ， 然 后 服务 器 也 在 一 个 包 中 集中 回 
复 ， 这 样 就 能 在 一 个 往返 时 间 里 完成 多 项 操作 了 。 

道理 听 起 来 似乎 很 简单 ， 但 真正 做 起 来 并 不 容易 。 以 图 4 中 的 
READDIRPLUS + GETATIR + ACCESS + READ 为 例 如 果 用 
COMPUND 方 式 ， 发 送 方 在 没有 收 到 READDIRPLUS 回 复 之 前 ， 怎 么 知 
道 GETATTR 操 作 应 该 指定 什么 File Handle 呢 ? NFSv4 用 了 类 似 编程 时 用 
到 的 “变量 "思维 来 实现 ， 首 先是 READDIRPLUS 操 作 所 得 到 的 File 
Handle 被 作为 变量 传 给 GETATTR 请 求 ， 接 着 GETATTR 操 作 得 到 的 文件 
属性 又 传 给 ACCESS 和 READ。 变 量 的 传递 完全 发 生 在 服务 器 端 ， 所 以 
客户 端 不 需要 参与 ， 也 就 没有 来 回 发 包 的 需要 。 

图 5 是 一 个 包含 了 7 个 操作 请 求 的 NFSv4 包 ，COMPUND 方 式 对 效率 
的 提高 幅度 由 此 可 见 一 斑 。 我 认为 这 个 思路 值得 很 多 应 用 层 协 i 
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说 完 NFS 的 最 新 进展 ， 我 们 再 回头 看 看 CIFS 已 经 发 展 成 什么 样 了 。 
虽说 现在 的 微软 已 经 没有 当年 风光 了 ， 但 是 在 对 CIFS 协 议 的 改进 上 ， 绝 
对 称 得 上 亮丽 的 一 笔 ， 在 我 看 来 已 经 远 远 把 NFS 抛 到 脑 后 了 。 在 


Windows 8 和 Windows 2012 所 支持 的 最 新 CIFS 版 本 SMB3 上 ， 出 现 了 很 
多 适应 当前 需求 的 革命 性 创新 。 

不 知道 你 是 否 记得 《剖析 CIFS 协议 》 一 文中 提 到 的 “常见 问题 3" 及 
其 答案 ? 当 我 通过 CIFS 复 制 abc.txt， 然 后 粘贴 到 同一 目录 生成 abc- 
Copy.txt 时 ， 网 络 包 如 图 6 所 示 、 








图 6 


这 说 明 复制 粘贴 过 程 实际 是 这 样 的 。 

1， 客户 端 发 送 读 请 求 给 服务 器 。 

2. 服务 器 把 文件 内 容 回 复 给 客户 端 (这 些 文件 内 容 被 暂时 存在 客 
户 端 内 存 中 ) 。 

3。 客户 端 把 内 存 中 的 文件 内 容 写 到 服务 器 上 的 新 文件 abe-Copy.txt 
中 。 

4. 服务 器 确认 写 操 作 完成 。 

在 这 个 过 程 中 ， 文 件 过 第 2 步 和 第 3 步 在 网 络 上 来 回 跑 了 两 
次 ， 是 很 浪费 带宽 资源 的 。 为 此 SMB3 设 计 了 一 个 叫 “Offload Data 
Transfer” 的 功能 ， 能 够 把 过 程 变 成 这 样 。 

1. 客户 端 向 服务 器 发 送 复制 请 求 。 
。 服务 器 给 了 客户 端 一 张 token。 
.客户 端 利用 这 张 token 给 服务 器 发 写 请 求 。 
。 服 务 器 按 要 求 写 新 文件 。 
.服务 器 告诉 客户 端 复制 已 经 完成 。 
图 7 显示 了 这 两 种 复制 方式 的 差别 ， 实 心 箭头 表示 文件 内 容 的 流 
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图 7 


可 见 在 SMB3 的 复制 过 程 中 ， 我 们 只 是 在 网 络 上 传输 了 一 些 指令 ， 
而 文件 内 容 并 没有 出 现在 网 络 上 ， 因 为 复制 数据 完全 由 服务 器 自己 完成 
了 。 假 如 是 复制 一 个 大 文件 ， 那 对 性 能 的 提升 幅度 是 非常 可 观 的 ， 你 甚 
至 可 以 在 数秒 钟 里 复制 几 个 GB 的 数据 ， 远 超 网 络 的 瓶颈 。 在 虚拟 化 的 
应 用 场合 中 ， 通 过 这 个 机 制 克隆 一 台 虚 拟 机 也 可 以 变 得 很 快 。 SMB3 的 
另 一 个 破天荒 改 进 是 在 CIFS 层 实现 了 负载 均衡 。 与 其 他 CIFS 版 本 不 
同 ， 一 个 SMB3 Session 可 以 基于 多 个 TCP 连 接 。 如 图 8 所 示 ，Windows 8 
服务 器 上 的 两 个 网 卡 ， 可 以 分 别 和 文件 服务 器 上 的 两 个 网 卡 建立 TCP 连 
接 ， 然 后 一 个 SMB3 Session 就 基于 这 两 个 连接 之 上 。 当 其 中 一 个 TCP 连 
接 出 现 故障 ， 比 如 网 卡 坏 掉 时 ，SMB3 连 接 还 可 以 继续 存在 。 








TCP Session 1 TCP Session 2 






-个 SMB Session 


图 8 


考虑 到 现在 全 球 化 的 大 公司 越 来 越 多 ， 有 了 很 多 总 部 和 分 部 ， 所 以 
远 距离 的 文件 传输 就 成 了 大 问题 。 比 如 说 ， 中 国 总 部 的 机 房 中 存在 一 个 
大 文件 ， 从 澳大利亚 分 部 访问 该 文件 是 其 是 当 分 部 中 有 很 
多 用 户 需要 访问 同一 个 文件 时 ， 相 同 的 是 
多 次 。SMB3 提 出 了 一 个 叫 BranchCache 的 机 制 来 解决 这 个 问题 
利 亚 分 部 的 第 一 个 用 户 访问 该 文件 时 ， 文 件 从 中 国 传输 过 去 
缓存 起 来 (比如 存 到 分 部 的 专用 服务 器 上 〉。 接 下 来 澳大利亚 分 剖 








有 其 他 用 户 访问 该 文件 ， 就 可 以 通过 文件 签名 从 缓存 服务 器 上 找到 了 。 

这 个 机 制 听 上 去 有 点 “ 脑 洞 大 开 ” 的 意思 ， 不 过 我 在 实验 室 中 实施 过 
这 个 功能 ， 用 户 体验 还 是 非常 好 的 ， 当 然 也 增加 了 实施 和 购买 专用 服务 
器 的 开支 。 

最 后 不 得 不 提 的 是 SMB3 的 一 个 “Continuous Availability” 特 性 。 以 前 
很 多 厂商 的 文件 服务 器 号 称 支持 Active/Standby (当前 待机 》 模式 ， 即 
文件 服务 器 的 两 个 机 头 共享 硬盘 ， 当 一 个 机 头 宕 机 时 ， 能 即时 切换 到 待 
机 的 机 头 上 。“ 即 时 "这 个 词 实际 上 是 有 虚假 宣传 嫌疑 的 ， 因 为 SMB3 之 
前 的 CIFS 版 本 把 文件 锁 之 类 的 信息 放 在 机 头 的 内 存 中 ， 新 的 机 头 起 来 时 
无 法 获得 这 此 ， 所 以 是 没 办 法 无 颖 地 提供 访问 的 ， 必 须 让 客户 端 重 
新 访问 一 次 。 

SMB3 对 此 的 解决 方案 是 把 文件 锁 之 类 的 信息 存 到 硬盘 上 ， 所 以 新 
机 头 起 来 时 便 可 以 获得 这 些 信息 ， 这 样 ， 提 供 无 颖 服务 就 成 了 一 种 可 
几 。 为 了 方便 理解 ， 我 也 做 了 一 个 示意 图 ， 如 图 9 所 示 。 
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图 9 


1，Windows 8 客 
保存 在 硬盘 中 。 

2. 机 头 1 发 生 故 障 ， 切 换 到 机 头 2 上 ， 机 头 2 从 硬盘 中 获取 信息 。 

3，Windows 8 仍然 能 锁定 该 文件 ， 因 为 机 头 2 继承 了 机 头 1 的 信息 。 


DNS 小 科普 





端 通过 机 头 1 访问 文件 ， 生 成 的 文件 锁 等 信息 被 


有 一 些 技术 ， 人 们 即便 每 天 都 在 使 用 ， 也 未 必 能 意识 到 它 的 存在 。 

DNS 就 是 这 样 一 种 技术 。 当 我 在 浏览 器 上 输入 一 个 域名 时 ， 比 如 
www.example.com， 其 实 不 是 根据 该 域名 直接 找到 服务 器 ， 而 是 先 用 
DNS 解析 成 耳 地 址 ， 再 通过 IP 地 址 找到 服务 器 。 有 时 候 甚至 不 用 输入 任 
何 域名 ， 也 会 在 不 知 不 觉 间 用 到 DNS。 比 如 打开 公司 电脑 ， 用 域 账 号 登 
录 操 作 系统 ， 就 是 依靠 DNS 找到 Domain Controller 来 验证 身份 。 毫 不 夸 
张 地 说 ， 如 果 有 一 天 突然 失去 DNS， 世 界 会 立即 陷入 混乱 。 

我 家 里 的 笔记 本 IP 为 192.168.1.101，DNS 服 务 器 全 为 
106.186.28.239。 如 果 在 打开 www.example.com 的 过 程 中 抓 了 包 ， 就 能 看 
到 图 1 所 示 的 解析 过 程 。 








图 1 


笔记 本 : “请 问 www.example.com 的 A 记 录 是 什么 ? ” 

服务 器 : “是 93.184.216.119。” 

获得 IP 之 后 ， 笔 记 本 就 可 以 和 93.184.216.119 建 立 HTTP 连 接 了 。 这 
个 例子 中 提 到 的 A〈Address) 记录 ， 指 的 是 从 域名 解析 到 IP 地 址 。 如 果 
你 经 常 处 理 DNS 包 ， 还 会 看 到 不 少 其 他 类 型 的 记录 。 


*。PTR 记 录 : 与 A 记录 的 功能 相反 ， 它 能 从 IP 地 址 解析 到 域名 。PTR 


有 什么 作用 呢 ? 比如 IT 部 门 发 现 最 近 公司 里 的 机 器 10.32.106.47 和 
YouTube 之 间 数 据 流量 很 大 ， 用 nslookup 一 查 PTR 记 录 就 知道 原来 是 阿 
满 在 上 班 时 间 偷 看 视频 了 ( 见 图 2) 。 
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*SRV 记 录 : Windows 的 域 管理 员 要 特别 关心 SRV 记 录 ， 因 为 它 指向 
域 里 的 资源 。 比 如 我 想 知道 我 们 公司 的 域 nas.com 里 有 哪些 DC， 只 要 随 
便 在 一 台电 脑 上 查询 _ldap._tcp.dc._msdcs.nas.com 这 个 SRV 记 录 就 可 以 
了 。 如 果 你 也 想 查 贵 司 的 DC， 请 把 nas.com 改 成 正确 域名 即 可 。 图 4 是 查 
询 过 程 的 截图 。 
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，CNAME 记 录 : 又 称 为 Alias 记 录 ， 就 是 别名 的 意思 。 比 如 我 的 服务 
器 10.32.106.73 同 时 提供 网 页 (www) 、 邮 件 (mail》 和 地 图 (map) 服 
务 。 图 6 是 该 服务 器 在 DNS 中 的 配置 ， 其 中 www 的 A 记录 指向 了 
10.32.106.73， 还 有 两 个 别名 记录 mail 和 map 指 向 了 www。 客 户 端 访 问 这 
3 个 域名 时 ， 都 会 被 定向 到 10.32.106.73 上 面 。 
































别名 是 如 何 起 作用 的 呢 ? 当 客 户 端 查询 mailnas.com 或 者 
map.nas.com 时 ，DNS 服 务 器 通过 www.nas.com 找 到 10.32.106.73， 然 后 
把 结果 返回 给 客户 端 。 图 7 是 访问 mail.nas.com 时 抓 的 包 。 











图 7 


那 直 接 把 10.32.106.73 配 给 mail 和 map 可 以 吗 ? 当然 是 可 以 的 ， 但 如 
果 某 天 要 改变 这 个 也 地址， 就 不 得 不 在 DNS 上 修改 www、mail 和 map 这 3 
项 记录 了 。 而 在 使 用 别名 的 情况 下 ， 只 要 修改 www 一 项 的 IP 就 行 了 ， 
mail 和 map 都 没有 必要 改动 。 别 名 的 使 用 节省 了 管理 时 间 ， 站 长 们 应 该 
会 喜欢 这 个 功能 。 

了 解 完 DNS 的 基本 功能 之 后 ， 我 们 再 来 看 看 它 的 工作 方式 。 

刚才 说 到 我 的 笔记 本 在 解析 www.example.com 时 用 到 了 DNS 服务 器 
106.186.28.239。 其 实 这 台 服 务 器 非常 可 疑 ， 因 为 我 查 到 它 属 于 美国 一 
家 私有 云 提供 商 ， 不 知道 通过 什么 方式 配 到 我 电脑 上 的 。 世 界 上 还 有 很 
多 这 样 不 权威 的 DNS 服务 器 ， 就 连 电信 和 有 线 通 等 宽带 提供 商 的 DNS 服 
务 器 也 是 不 权威 的 。 所 谓 "不 权威 "， 并 不 是 指 它们 一 定 不 值得 信任 ， 而 
是 因为 它们 本 身 不 包含 DNS 的 注册 信息 。 当 收 到 新 的 DNS 查询 时 ， 它 们 
要 从 权威 DNS 服务 器 〈 属 于 一 个 叫 ICANN 的 非 营 利 性 组 织 》 那 里 查 到 结 
果 ， 然 后 再 返回 给 客户 端 。 

从 本 文 的 第 一 个 抓 包 中 ， 我 们 只 知道 不 权威 DNS 服务 器 成 功 解析 了 
www. example.com， 却 不 知道 它 是 怎么 做 到 的 。 有 可 能 是 它 收 到 我 的 请 


求 之 后 ， 悄 悄 地 查询 了 权威 DNS 服务 器 ， 然 后 告诉 我 答案 。 这 种 工作 方 
式 称 为 递归 查询 ， 其 特点 是 客户 端 〈 我 的 笔记 本 ) 完全 依赖 服务 器 〔 那 
台 可 疑 的 DNS 服务 器 ) 直接 返回 结果 。 

除了 递归 之 外 ， 还 有 一 种 叫 迭 代 查 询 的 方式 ， 其 特点 是 客户 端 先 查 
到 根 服务 器 的 地 址 ， 再 从 根 服务 器 查 到 权威 服务 器 ， 然 后 从 权威 服务 器 
查 .….. 直 到 返回 想 要 的 结果 。 用 dig 命 令 加 上 “+trace” 参 数 可 以 强迫 客户 
端 采用 兴 代 查询 。 图 8 就 是 查询 的 整个 过 程 。 可 见 迭代 查询 要 比 递归 查 
询 麻烦 得 多 ， 但 





















































这 个 和 迭代 查询 的 网 络 包 如 图 9 所 示 。 从 中 可 以 看 到 笔记 本 
192.168.1.101 发 出 了 7 个 查询 ， 才 得 到 最 终 的 结果 。 





图 9 


如 果 这 两 个 抓 包 还 不 足以 说 明 递 归 和 选 代 的 差别 ， 我 们 可 以 用 生活 
中 的 例子 来 类 比 。 


递归 查询 : 老板 给 我 发 个 短信 :“ 阿 满 ， 附 近 哪个 川菜 馆 最 正 
宗 ? "我 屁 颠 屁 颠 地 去 问 我 的 吃 货 朋友 二 胖 ， 二 胖 又 问 了 他 的 女友 川 妹 

子 ; 川 妹子 把 答案 告诉 二 胖 ， 二 胖 再 告诉 我 ， 最 后 我 装 作 很 专业 的 样子 
回复 了 老板 。 这 个 过 程 对 老板 来 说 就 是 递归 查询 。 


* 迁 代 查 询 : 老板 说 :“ 阿 满 ， 推 荐 一 下 附近 的 洗 脚 店 呐 ? ”我 立即 
严 辞 拒绝 :“ 这 个 我 不 知道 ， 不 过 你 可 以 问 问 公关 部 的 张 总 。” 老 板 去 找 
到 张 总 ， 又 被 指引 到 销售 部 的 小 李 ， 最 终 从 小 李 那 里 问 到 了 。 这 个 过 程 
就 是 迭代 查询 ， 因 为 是 老板 自己 一 步 一 步 地 查 到 答案 。 


说 完 DNS 的 工作 方式 ， 我 们 再 来 认识 它 的 一 个 很 有 用 的 特性 。 我 的 
DNS 中 有 两 个 ml“Isilon-Cluster” 的 同名 A 记录 ， 分 别 对 应 着 IP 地 址 
10.32.106.51 和 10.32.106.52。 当 我 连续 执行 两 次 “nslookup 
Cluster.nas.com” 时 ， 抓 到 的 网 络 包 如 图 10 所 示 。 


Isilon- 








图 10 


可 见 两 次 返回 的 人 P 地 址 是 一 样 的 ， 但 顺序 却 是 相反 的 。 如 果 我 执行 
第 三 次 


nslookup， 结 果 又 会 跟 第 一 次 一 样 ， 这 就 是 DNS 的 循环 工作 
《round-robin) 模式 。 这 个 特性 可 以 广泛 应 用 于 负载 均衡 。 比 如 某 个 网 


站 有 10 台 Web 服 务 器 ， 管 理 员 就 可 以 在 DNS 里 创建 10 个 同名 记录 指向 这 
些 服务 器 的 也。 由 于 不 同 客户 端 查 到 的 结果 顺序 不 同 ， 而 且 一 般 会 选用 
结果 中 的 第 一 个 了 了， 所 以 大 量 形 就 会 被 均衡 地 分 配 到 10 台 Web 服 务 
器 上 。 随 着 分 布 式 系统 的 流行 ， 这 个 特性 的 应 用 场景 将 会 越 来 越 多 ， 比 
如 本 例 中 的 分 布 式 存储 设备 Isilon。 

说 了 这 么 多 DNS 的 好 话 ， 那 它 有 没有 缺点 呢 ? 当然 有 ， 而 且 还 不 
少 。 





。 就 像 雕 牌 洗衣 粉 被 周 佳 牌 模仿 一 样 ，DNS 上 也 存在 山寨 域名 。 比 
如 招商 银行 的 域名 是 www.cmbchina.com， 但 是 www.cmbchina.com.cn 和 
www.cmbchina.cn 却 不 一 定 属于 招行 。 如 果 这 两 个 域名 被 指向 外 表 和 招 
行 一 样 的 钓鱼 网 站 ， 就 可 能 会 骗 到 部 分 用 户 的 银行 账号 和 密码 。 


。 如 果 DNS 服 务 器 被 恶意 修改 也 是 很 危险 的 事情 。 比 如 登录 招行 网 
站 时 虽然 用 了 正确 域名 www.cmbchinacom， 但 由 于 DNS 服务 器 是 黑 
控制 的 ， 很 可 能 解析 到 一 个 钓鱼 网 站 的 他。 





。 即便 是 配 了 正规 的 DNS 服 务 器 ， 也 是 有 可 能 中 招 的 。 比 如 正规 的 
DNS 服 务 器 遭遇 绥 冲 投 毒 之 后 ， 也 会 变 得 不 可 信 。 


。 DNS 除 了 能 用 来 欺骗 ， 还 能 当做 攻击 性 武器 。 著 名 的 DNS 放 大 攻 
击 就 很 让 人 头疼 。 下 面 是 我 在 执行 “dig ANY isc.org”( 解 析 isc.org 的 所 
有 信息 ) 时 抓 的 包 ， 可 见 6 号 包 发 出 去 的 请 求 只 有 25 字 节 〈 见 图 11 底 部 
的 Length: 25) ， 而 11 号 包 收 到 的 回复 却 能 达到 3111 字 节 《〈 见 图 12 底 部 
的 Length 3111) ， 竟 然 放 大 了 124 倍 。 
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图 12 


假如 在 6 号 包 里 伪造 一 个 想 要 攻击 的 源 地 址 ， 那 该 地 址 就 会 莫名 收 
到 DNS 服务 器 3111 字 节 的 回复 。 利 用 这 个 放大 效应 ， 只 要 控制 少量 
电脑 就 能 把 一 个 大 网 站 拖 垮 了 。 


一 个 古老 的 协议 一 一 FTP 


你 也 许 难以 想象 ，FTP 协 议 在 1971 年 就 出 现 了 。 在 那 时 ， 现 代 的 网 
络 模型 还 没有 形成 ， 所 以 FTP 完 全 称 得 上 网 络 界 的 活化 石 。 

它 的 发 明 人 也 很 有 意思 ， 是 印度 工程 师 Abhay Bhushan。 要 知道 早 
期 的 网 络 协议 起 草 者 几乎 是 清一色 的 欧美 工程 师 ，Bhushan 能 够 占 得 一 
席 之 地 绝对 称 得 上 传奇 。 虽然 看 起 来 文 质 彬 彬 ， 但 实际 上 Bhushan 热 爱 
运动 ， 尤 其 擅长 马拉松 和 铁人 三 项 (我 印象 中 计算 机 科学 之 父 Alan 
Turing 也 是 位 长 跑 健将 ) 。 

一 个 古老 的 协议 能 有 如 此 活力 ， 一 定 是 有 深层 原因 的 。FTP 的 过 人 
之 处 ， 就 在 于 它 用 最 简单 的 方式 实现 了 文件 的 传输 一 客户 端 只 需要 输入 











用 户 名 和 密码 ， 就 可 以 和 服务 器 互 传 文件 了 ; 有 的 甚至 连用 户 名 和 密码 
都 不 用 匿名 FTP) 。FTP 常 被 用 来 传播 文件 ， 尤 其 是 免费 软件 ， 另 一 
个 广泛 应 用 是 采集 日 志 ， 我 们 可 以 让 服务 器 发 生 故障 之 后 ， 自 动 通过 
ETP 把 日 志 传 回 厂商 。 这 些 场合 之 所 以 适合 FTP 而 不 是 NFS 或 者 CIFS， 
就 是 因为 它 实现 起 来 更 加 简单 。 

一 个 软件 使 用 起 来 简单 ， 并 不 意味 着 它 的 底层 设计 也 很 简单 。 如 果 
你 抓 了 一 个 FTP 的 网 络 包 ， 乍 一 看 会 觉得 非常 复杂 ， 尤 其 是 在 端口 号 的 
管理 上 。 在 我 的 实验 室 中 ， 我 从 Windows 客 户 端 登录 了 一 次 FTP 服 务 
器 ， 然 后 下 载 了 一 个 叫 linpeiman.txt 的 文件 。 我 们 先 来 看 看 登录 的 过 程 
( 见 图 1) 。 
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(391 password reauired for linpeiman. 
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图 1 




















接 下 来 看 看 登录 过 程 的 网 络 包 ， 前 三 个 包 无 需 解析 〈 见 图 2) ， 就 
是 由 客户 端 发 起 的 三 次 握手 。 唯 一 值得 记 住 的 是 FTP 服 务 器 的 控制 端口 























服务 器 : “我 准备 好 接受 访问 啦 ， 顺 便 说 一 下 我 是 一 台 EMC 公 司 的 
存储 ， 版 本 号 8.1.1.33。” 

7 号 包 : 

客户 端 “ 我 想 以 用 户 名 linpeiman 登 录 。” 

8 号 包 : 

服务 器 :“ 那 你 把 linpeiman 的 密码 告诉 我 。” 

10 号 包 : 

客户 端 : “密码 是 123456。” 

11 号 包 : 

服务 器 :“ 密 码 正确 ，linpeiman 登 录 成 功 。” 

从 以 上 分 析 可 见 ，FTP 是 用 明文 传输 的 ， 连 我 的 密码 123456 都 可 以 
被 Wireshark 解 析出 来 。 如 果 对 安全 的 要 求 非常 高 ， 就 不 能 采用 这 种 方 
式 。 接 下 来 再 看 下 载 文件 的 过 程 〔 见 图 4) 。 
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Te et recip wt 7 
208 PORT command successful . 
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226 TransTer complete 
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221 boodbye 




















现在 分 析 下 载 过 程 的 网 络 包 ( 见 图 5〉。 





13 号 包 : 

客户 端 : “我 想 从 IP=10.32.200.41， 端 口 为 208x256+185=53433 连 接 
你 的 数据 端口 〈 公 式 中 的 256 为 约定 好 的 常数 ) 。” 

14 号 包 : 

服务 器 :“ 可 以 的 ， 我 同意 了 

15 号 包 : 





客户 端 :“ 那 我 想 下 载 文件 linpeiman.txt。” 

22 号 包 : 

服务 器 : “给 你 传 了 。” 

上 面 这 些 包 并 没有 真正 传输 文件 内 容 ， 我 们 接着 看 〈 见 图 6) 。 








16、17、18 号 包 也 是 三 次 握手 ， 不 过 这 次 发 起 者 是 FTP 服 务 器 。 服 
务 器 的 端口 号 采用 了 20， 客 户 端的 端口 则 为 之 前 协商 好 的 53433。 

19 号 包 : 

服务 器 :“ 给 你 文件 内 容 (文件 内 容 “Life is tough. Wireshark makes 
iteasy.” 可 见于 图 6 中 的 底部 ) 。” 

20、21、23、24 号 包 为 四 次 挥手 过 程 ， 表 示 数 据 传输 结束 ，TCP 连 
接 关 闭 了 。 

从 以 上 分 析 可 见 ， 客 户 端 连接 FTP 服 务 器 的 21 端 口 仅仅 是 为 了 传输 
控制 信息 ， 我 们 称 之 为 “控制 连接 "。 当 需要 传输 数据 时 ， 就 重新 建立 一 
个 TCP 连 接 ， 我 们 称 之 为 “数据 连接 "。 随 着 文件 传输 结束 ， 这 个 数据 连 
接 就 自动 关闭 了 。 不 但 在 下 载 文件 时 如 此 ， 就 连 执行 ls 命令 来 列举 文件 
时 ， 也 需要 新 建 一 个 数据 连接 。 在 我 看 来 这 不 是 一 种 高 效 的 方式 ， 因 为 
三 次 握手 和 四 次 挥手 就 用 掉 7 个 包 ， 而 ls 命令 的 请 求 和 响应 往往 只 需要 2 
个 包 ， 就 像 开 着 卡车 去 送 快递 一 样 不 经 济 。 图 7 显示 了 这 个 例子 的 两 个 
连接 情况 。 





图 7 


我 花 了 很 长 时 间 来 思考 Bhushan 先 生 为 何 把 FTP 的 控制 连接 和 数据 
连接 分 开 “来 ， 不 过 至 今 还 是 不 能 领悟 。 我 唯一 能 想到 的 好 处 是 连接 分 
开 后 ， 就 有 机 会 在 路 由 器 上 把 控制 连接 的 优先 级 提高 ， 免 得 被 数据 传输 
影响 了 控制 。 举 个 例子 ， 当 文件 下 载 到 我们 突然 反悔 了 ， 就 可 以 
Abort (终止 这 次 下 载 。 如 果 Abort 请 求 是 通过 优先 级 较 高 的 控制 连接 
发 送 的 ， 也 许 能 完成 得 更 加 及 时 。 当 然 我 的 猜测 可 能 是 错 的 ，20 世 纪 70 
年 代 的 路 由 器 也 许 根 本 不 支持 优先 级 。 

如 果 你 为 FTP 配 置 过 防火 墙 ， 还 会 发 现 这 种 方式 带 来 了 一 个 更 加 严 
重 的 问题 一 由 于 数据 连接 | 握手 是 由 服务 器 端 主动 发 起 的 〈 我 们 称 
之 为 主动 模式 ) ， 如 果 客 户 端的 防火 墙 阻挡 了 连接 请 求 ， 传 输 不 就 失败 
了 吗 ? 磁 到 这 种 情况 时 ， 我 建议 你 试 一 下 FTP 的 被 动 模式 。 图 8 是 在 被 
动 模式 下 抓 到 的 包 。 由 于 被 动 模式 的 登录 过 程 和 主动 模式 一 样 ， 所 以 我 
们 从 登录 后 开始 讲 起 













: “我 想 用 被 动 模式 传输 数据 。” 





服务 器 : “你 可 以 连接 到 IP=10.32.106.112， 端 口号 为 


240x256+217=61657〔 公 式 中 的 256 为 约定 好 的 常数 ) 。” 
29 号 包 : 
客户 端 : “我 想 下 载 linpeiman.txt。” 
30 号 包 : 
服务 器 : “给 你 传 了 。” 
十 面 这 些 包 并 没有 真正 传输 文件 内 容 ， 我 们 接着 看 〈 见 图 9) 。 











26、27、28 号 包 是 数据 连接 的 三 次 握手 ， 可 见 这 一 次 由 客户 端 主动 
发 起 (所 以 对 服务 器 来 说 是 被 动 的 ) ， 连 接 的 服务 器 端口 为 之 前 协商 好 
的 61557。 

31、32、33、34、35 号 包 完成 了 文件 内 容 的 传输 ， 然 后 关闭 数据 连 
接 。 同 样 从 图 9 底部 可 以 见 到 该 文件 的 内 容 ; Life is tough. Wireshark 
makes it easy. 


项 后 我 在 EP 信和 中 林 人 7 "命令 〈 见 图 10) 。 
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图 10 


Gooabye 过 程 的 网 络 包 如 图 11 所 示 。 


9 00.1 Tegels-v0-12 29+20529 ER Movest; or 
8 19331112 30. 32. 168107 30U-0813 1058 .39_ FT Sesses sa ccorpye 


Pe 
A 0 OE 802 Te 5 fre Pak Se ec ete 
re ee 


图 11 





39 号 包 : 


客户 端 : “我 要 退出 啦 。” 

40 号 包 : 

服务 器 : “好 的 ，Goodbye!”(FTP 是 我 所 知道 最 讲 礼仪 的 协议 。) 

41、42、43、44 号 包 是 四 次 挥手 过 程 ， 断 开 控制 连接 ， 完 成 了 一 次 
ETP 的 生命 周期 。 

你 也 许 想 问 ， 那 如 何 指定 客户 端 采用 主动 还 是 被 动 模式 呢 ? 很 多 
FTP 客户 端 软件 都 有 这 个 选项 。 比 如 图 12 是 WinSCP 上 的 截图 ， 选 中 
Passive mode 即 表示 被 动 模式 。 
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理论 上 所 有 FTP 客 户 端 都 应 该 支持 这 两 种 模式 ， 但 Windows 自 带 的 
ftp 命 令 似 乎 只 支持 主动 模式 。 图 13 是 我 试图 采用 被 动 模式 的 命令 。 









amplata 
tp: 1 utes pecelvad in 9.BBSeconds 15000.00Kbtes/eec. 
tp> hye 

at coodbue. 





图 13 


从 图 13 中 看 ， 当 我 输入 “quote pasv” 命 令 时 ， 的 确 显示 进入 被 动 模式 
(Entering Passive Mode) 。 接 下 来 我 们 看 看 图 14 的 网 络 包 。12 号 和 13 
号 包 也 的 。 确 显示 进入 被 动 模式 ， 但 是 再 接 下 来 的 网 络 包 却 完全 是 主动 
模式 的 样子 。 








从 结果 看 ，12 号 和 13 号 包 完全 没有 起 作用 。 这 很 可 能 是 Windows 的 
一 个 bug， 我 在 Windows 7 和 Windows 2003 都 看 到 了 相同 的 结果 。 那 微软 
的 测试 部 门 为 什么 没有 发 现 呢 ? 如 果 没 有 用 Wireshark 来 抓 包 检查 ， 测 试 
人 员 是 很 难 测 出 这 个 问题 的 ， 我 也 是 在 写 这 篇 文章 的 时 候 碰巧 看 到 。 从 
这 个 不 经 意 的 发 现 ， 就 可 以 知道 Wireshark 的 价值 。 


RY 
上 网 的 学 问 
2012 年 7 月 27 日 ， 伦 敦 奥运 会 开幕 式 上 ， 一 位 长 者 带 着 上 世纪 才能 


见 到 的 老式 电脑 出 现 了 。 他 发 布 了 一 条 推 特 一 “This is for everyone"， 随 
即 显示 在 体育 馆 的 大 屏幕 上 ， 传 遍 世 界 〈 见 图 1) 。 
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图 1 


他 就 是 57 岁 的 Tim Berners-Lee 狠 士 一 一 万 维 网 的 发 起 者 ， 也 是 第 一 
位 实现 HTTP 的 工程 师 。 英 国人 不 但 借 此 传播 了 开放 和 分 享 的 互联 网 精 
神 ， 也 展示 了 其 在 IT 历史 上 的 地 位 一 从 葛 定 现代 计算 机 基础 的 Alan 
Turing， 到 发 明 分 组 交换 的 Donald Davies， 再 到 万 维 网 之 父 Tim Berners- 
Lee， 每 一 个 重大 环节 都 有 英国 人 的 参与 。 假 如 北京 奥运 会 上 也 要 推出 
我 们 的 IT 界 代表 人 物 ， 我 想 大 家 心中 已 有 合适 的 人 选 ， 他 也 可 以 在 台 上 

Tim 所 实现 的 HTTP 便 是 我 们 今天 浏览 网 页 所 用 的 网 络 协议 。 他 当年 
建立 的 网 站 至 今 还 能 访问 ， 域 名 为 http:Winfo.cern.ch/。 虽 然 这 个 页 面 已 
经 更 新 过 ， 但 我 们 还 可 以 在 http://www.w3.org/History/19921103- 
hypertext/hypertexyYWWW/News/9201.html 看 到 当年 的 内 容 。 

HTTP 的 工作 方式 算 不 上 复杂 ， 先 由 客户 端 向 服务 器 发 起 一 个 请 
求 ， 再 由 服 ” 务 器 回复 一 个 响应 。 根 据 不 同 需要 ， 客 户 端 发 送 的 请 求 会 
用 到 不 同方 法 ， 有 GET、POST、PUT 和 HEAD 等 。 比 如 在 网 站 上 登录 账 
号 时 就 可 能 用 到 POST 方 ; 

我 在 打开 网 页 http://www.rfc-editor.org/info/rfc2616 时 抓 了 包 ， 我 们 











就 以 此 为 例 ， 来 看 看 HTTP 是 如 何 工作 的 〈 见 图 2) 。 
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1， 由 于 HTTP 协 议 基 于 TCP， 所 以 上 来 就 是 三 次 握手 。 从 图 2 的 底 
部 可 以 看 到 ， 服 务 器 的 端口 号 为 80。 

2， 在 图 3 中 ，4 号 包 是 客户 端 向 服务 器 发 送 的 “GET /info/rfc2616 
HTTP1.1" 请 求 ， 即 通过 1.1 版 的 HTTP 协 议 ， 获 取 /info 目 录 里 的 rfc2616 文 
件 。 说白 了 就 是 想 下 载 页 面 内 容 。 
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图 3 


3. 7 号 包 是 服务 器 对 该 请 求 的 响应 ， 即 把 /info/rfc2616 的 内 容 发 给 
客户 端 。 

4. 9 号 包 是 客户 端 向 服务 器 请 求 “GET /style/rfc-editor.css”。 该 css 文 
件 定义 了 页 面 的 格式 。 

5，11 号 包 是 服务 器 对 该 请 求 的 响应 ， 把 /style/rfc-editor.css 的 内 容 发 
给 客户 端 。 

就 这 样 ， 客 户 端 通过 两 个 GET 方 法 得 到 了 页 面 内 容 和 格式 ， 从 而 打 
开 了 网 页 。 如 果 点 开 每 一 个 HTTP 包 前 的 + 号 ， 还 能 看 到 其 协议 头 和 详细 
信息 。 以 4 号 包 为 例 ， 它 的 HTTP 协 议 头 在 Wireshark 中 如 图 4 所 示 。 其 包 
含 的 信息 大 概 可 以 归纳 为 :我 要 通过 1.1 版 的 HTTP 协 议 ， 从 服务 器 
www.rfc-editor.org 的 /info 目 录 里 得 到 rfc2616 的 内 容 。 
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图 4 


HTTP 算 不 上 一 个 复杂 的 协议 ， 出 问题 的 时 候 也 能 在 浏览 器 上 看 到 
萌 误 信息 ， 所 以 我 们 用 到 Wireshark 的 机 会 并 不 多 。 不 过 随 着 技术 的 进 
步 ，HTTP 越 来 越 多 地 应 用 到 不 需要 浏览 器 的 场景 中 ， 比 如 现在 如 火 如 
茶 的 云 存储 技术 就 有 Wireshark 的 用 武之 地 。 

由 于 海量 文件 不 适合 传统 的 目录 结构 ， 所 以 云 存储 一 般 使 用 对 象 存 
储 的 方式 一 客户 端 访 问 文件 时 并 不 使 用 其 路 径 和 文件 名 ， 而 是 使 用 它 的 
对 象 ID。 身 份 验证 也 是 通过 HTTP 协 议 实 现 的 。 工 程 师 们 处 理 此 类 问题 
时 就 能 用 上 Wireshark 了 。 图 5 是 Wireshark 解 析 后 的 HTTP 读 文件 过 程 
(只 要 在 Wireshark 上 右键 单 击 其 中 一 个 包 ， 在 弹出 的 菜单 中 选 
择 "Follow TCP Stream" 就 可 以 打开 这 个 窗口 ) 。 我 们 可 以 从 中 看 到 该 文 
件 的 对 象 
ID*59J5T5KV78EP0e7AJIV55UO93DVG4140QGQQ000ED7PR8EJH3OGI 
还 有 身份 验证 时 用 到 的 用 户 名 “paddy” 和 加 密 后 的 密码 。 我 们 甚至 可 以 
看 到 服务 器 回复 的 文件 内 容 “I am Paddy Lin.….” 在 这 个 过 程 中 一 旦 发 生 问 
题 ， 比 如 身份 验证 出 错 了 ， 都 能 从 Wireshark 中 看 到 。 
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图 5 








上 面 两 个 例子 都 用 到 了 GET 方 法 ， 因 为 它 是 最 常用 的 。 事 实 上 
HTTP 协 议 最 早 的 版 本 就 只 支持 GET，Tim 开 发 的 第 一 个 网 页 也 是 如 此 。 
这 在 今天 的 开发 者 看 来 简直 是 小 菜 一 碟 ， 其 至 给 人 一 种 “时 无 英雄 "的 错 
觉 。 但 如 果 放 眼 整个 IT 历史 ， 现 在 看 起 来 很 了 不 起 的 技术 都 是 从 简单 发 
展 而 来 的 。 以 云 存储 为 例 ， 底 层 用 到 的 技术 并 不 新 颖 ， 但 组 合 起 来 的 云 
概念 就 是 科技 前 沿 了 。 

用 Wireshark 来 解决 HTTP 问 题 是 很 痛快 ， 因 为 整个 通信 过 程 一 览 无 
遗 。 但 仔细 一 想 却 叫 人 直 冒 冷汗 一 如 果 连 传输 的 文件 内 容 都 可 以 清楚 地 
看 到 ， 那 我 上 网 时 的 聊天 记录 ， 甚 至 密码 是 否 也 会 被 发 现 ? 很 不 幸 ， 答 
案 是 肯定 的 。 如 果 没 有 使 用 加 密 软 件 ， 那 么 黑客 或 者 你 的 领导 ) 就 可 
以 从 网 络 包 中 看 到 你 上 班 时 聊 了 些 什么 ， 在 哪些 帖子 上 祝福 楼 主 一 生平 
安 ， 搜 索 了 什么 关键 词 ， 甚 至 知道 你 登录 论坛 的 用 户 名 和 密码 。 

图 6 是 我 在 Google 上 搜索 时 抓 的 包 。 从 4 号 包 可 以 看 到 我 用 到 的 关键 
词 “Max is the best boss in the world”(Max 是 我 老板 的 名 字 ， 和 希望 他 此 时 
正在 监控 我 的 网 络 ) 。 如 果 IT 部 门 把 这 类 包 收集 起 来 ， 就 能 统计 出 员工 
们 上 班 时 都 在 搜索 什么 ， 再 通过 IP 地 址 还 能 查 到 每 一 项 是 谁 搜 的 。 








至 于 更 敏感 的 用 户 名 和 密码 ， 这 里 也 有 个 血淋淋 的 例子 。 我 在 登录 
www.mshua.net (这 是 我 经 常 登录 的 园艺 论坛 ) 时 抓 了 包 。 当 客户 端 用 
了 POST 方法 把 用 户 名 和 密码 传 给 服务 器 时 ， 已 经 在 网 络 上 暴露 了 身份 。 
请 看 图 7 底部 的 用 户 名 "username=wiresharktest" 和 密 
码 “password=P@ssw0rd”， 可 以 想见 这 个 明文 账号 和 密码 随时 可 能 落 入 
坏人 手中 。 事 实 也 是 如 此 ， 上 个 月 我 登录 时 ， 就 发 现 几 位 平时 一 本 正经 
的 网 友 在 发 成 人 图 片 ， 显 然 他 们 的 密码 已 经 被 盗 了 。 为 了 防止 好 奇 的 读 
sh es !， 我 已 经 把 密码 改 掉 了 。 


ao aaa oe pgioaiogpoqbaeriochoam 




















那 要 如 何 保护 自己 的 信息 呢 ? HTTPS 就 是 一 个 不 错 的 选择 。 比 如 用 
Google 搜 索 时 在 http 后 加 个 s， 变 成 https://www.google.com.hk/， 就 不 用 
担心 老板 知道 你 在 搜 些 什么 了 。 图 8 就 是 使 用 HTTPS 搜 索 时 抓 的 包 ， 注 
意 服 务 器 端口 是 443， 关 键 词 也 被 加 密 到 了 "Encrypted Application 
Data” 里 。 

Re 








图 8 


大 多 数 人 并 不 需要 理解 HTTPS 的 加 密 算 法 ， 所 以 本 文 将 不 在 此 多 费 
笔墨 (其 实 是 因为 我 自己 也 不 懂 ) 。 但 因为 加 密 包 会 给 诊断 间 题 带 来 不 
少 障碍 ， 所 以 管理 员 有 必要 知道 如 何 对 它 进 行 解码 。 图 9 是 4 个 HTTPS 
包 ， 我 们 除了 能 看 到 “Application Data Protocol* 是 HTTP 之 外 ， 几 乎 对 它 
们 -无 所 知 因为 所 有 信息 都 被 加 黎 了 。 











图 9 


要 对 这 些 加 密 包 进行 解码 ， 只 需要 以 下 几 个 步骤 〈 本 例 所 用 的 网 络 
包 和 密 钥 来 自 http://wiki.wireshark.org/SSL 上 的 snakeoil2_070531.tgz 文 
件 ， 建 议 你 也 下 载 来 试 试 ) 。 

1， 解压 snakeoil2_070531.tgz 并 记 住 key 文 件 的 位 置 ， 比 如 
Ci\tmp\rsasnakeoil 2.key。 

2， 用 Wireshark 打 开 rsasnakeoil2.cap。 

3， 单 击 Wireshark 的 Edit-->Preferences-->Protocols-->SSL-->RSA 
keys list。 然 后 按照 IP Address,Port,Protocol,Private Key 的 格式 填 好 ， 如 
图 10 所 示 。 
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图 10 
4. 单 击 OK， 这 些 包 就 成 功 解 码 了 。 图 11 就 是 这 4 个 包 解 码 后 的 样 
子 ， 两 个 GET 方 法 都 可 以 看 到 。 
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图 11 


既然 HTTPS 包 能 被 解码 ， 是 不 是 说 明 它 也 不 安全 呢 ? 事实 并 非 如 
此 ， 因 为 解码 所 用 到 的 密 钥 只 能 在 服务 器 端 导出 。 不 同 的 服务 器 操作 步 
又 有 所 不 同 ， 比 如 IIS 服 务 器 就 可 以 参考 这 一 篇 文章 : 
http://www.packetech.com/showthread.php?1585-Use-Wireshark-to- 
Decrypt-HTTPS。 

你 的 老板 有 可 能 潜入 Google 导 出 密 钥 吗 ? 我 相信 我 老板 做 不 到 。 


无 懈 可 击 的 Kerberos 


在 古 希腊 神话 中 ， 冥 界 的 大 门 由 一 头 烈 犬 看守。 此 犬 长 有 三 个 头 ， 
问 诡 业 业 地 守 在 冥 河 边 ， 从 没有 灵魂 能 在 它 醒 着 的 时 候 逃 离 。 这 头 烈 厂 
就 是 Kerberos， 安 全 守卫 的 象征 。 古 希腊 人 下 芋 时 要 放 好 密 饼 ， 就 是 为 
了 讨好 它 。 现 代 游戏 里 也 有 它 的 英姿 ， 比 如 《英雄 无 敌 》 里 以 一 敌 多 的 
地 狱 烈 厂 。 

本 文 要 介绍 的 身份 认证 协议 也 叫 Kerberos， 它 有 着 非常 广泛 的 应 
用 ， 比 如 Windows 域 环境 的 身份 认证 就 会 用 到 它 。 我 们 用 域 账号 登录 电 
脑 ， 就 在 不 知 不 觉 间 完成 了 一 次 Kerberos 认 证 过 程 。 

Kerberos 的 认证 结果 是 双向 的 一 当 账 号 A 访问 资源 B 时 ， 不 但 B 要 确 
保 A 并 非 冒 充 ， 而 且 A 也 要 查 明 B 不 是 假 货 。 我 们 一 般 只 知道 前 者 ， 比 如 
前 文 提 到 的 CIFS 服 务 器 就 要 在 Session Setup 中 对 造访 者 验 明正 身 。 后 者 
则 很 少 被 提 及 ， 因 为 人 们 一 般 不 会 怀疑 自己 要 访问 的 资源 是 假 的。 其 实 
后 者 还 是 很 有 必要 的 ， 举 一 个 例子 : 如 果 你 老板 伪造 了 一 台 网 络 打印 








机 ， 但 是 你 没 法 确认 它 的 真 假 ， 就 可 能 把 求职 信 打 到 他 办 公 室 里 去 ， 然 
后 就 真 的 得 出 去 求职 了 。 西 游记 中 其 实 也 出 现 需要 相互 认证 的 场景 ， 比 
如 如 来 佛祖 要 认 出 假冒 的 访问 者 六 耳 猕 猴 ， 唐 僧 师 徒 也 要 识别 山寨 
的 “资源 "小 雷 音 寺 。 

双向 认证 的 方式 不 止 一 种 ， 最 简单 的 做 法 是 互 报 密码 。 这 个 过 程 就 
像 电影 中 用 暗号 接头 。A 说 : “江南 风光 好 ”，B 说 : “遍地 红 花 开 ”。 如 果 
双方 都 核对 无 误 ， 就 可 以 激动 地 握手 “同志 ， 我 可 找到 你 了 ! ”假如 其 中 
一 方 报错 暗 号 ， 则 接头 失败 。 这 种 方式 的 次 端 很 多 ， 最 大 的 问题 是 不 方 
便 管 理 。 比 如 在 一 个 数 百 名 员工 共享 几 百 台 机 器 的 环境 中 ， 当 新 加 入 一 
名 员工 时 ， 就 得 在 几 百 台 机 器 上 更 新 账号 信息 。 相 信 没有 管理 员 能 忍受 
这 样 的 环境 。 

有 没有 办 法 做 得 更 好 呢 ? Kerberos 采 用 的 方法 是 引入 一 个 权威 的 第 
三 方 来 负 ” 责 身份 认证 。 这 个 第 三 方 称 为 KDC， 它 知道 域 里 所 有 账号 和 












资源 的 密码 。 假 如 账号 A 要 访问 资源 B， 只 要 把 KDC 拉 出 来 证 明 双方 身 
份 了 。 在 这 种 机 制 下 ，A 和 B 都 没 必 要 知道 对 方 的 密码 ， 完 全 依赖 


KDC 就 可 以 。 

原理 说 起 来 简单 ， 通 过 程序 实行 起 来 可 就 难 了 。 事 实 上 由 于 
Kerberos 过 于 复杂 ， 从 来 没有 一 位 技术 作家 能 把 它 简 单 地 表述 出 来 。 最 
文艺 的 Kerberos 诠 释 当 属 麻 省 理工 学 院 编 的 一 出 话剧 ， 搜 索 一 
下 “Kerberos 四 幕 话剧 "就 能 找到 它 ， 但 其 实 理解 这 话剧 还 是 不 容易 。 幸 
好 有 了 Wireshark 之 后 ， 可 以 使 Kerberos 的 认证 过 程 变 得 清晰 很 多 。 在 下 
面 的 实验 中 ， 账 号 A 是 我 的 域 账号 linp1， 资 源 B 是 一 台 叫 CAVA 的 
Windows 服 务 器 。 账 号 A 访 问 资源 B 其 实 就 是 linp1 登 录 CAVA 的 过 程 。 
第 一 步 ， 账 号 A 和 KDC 互 相 认 证 。 

这 可 以 看 成 一 道 有 趣 的 小 学 奥数 题 : 已 知 世界 上 只 有 A 和 KDC 知 道 
A 的 密码 ， 如 何 利用 该 密码 互相 证 明 自 己 的 身份 ? 你 也 许 会 想到 孔明 和 
周瑜 在 手心 对 字 ， 直 接 向 对 方 亮 出 A 的 密码 。 但 在 网 络 环境 中 不 能 这 样 
做 ， 因 为 如 果 其 中 一 方 是 假 的 ， 不 就 被 套 到 真 密码 了 吗 ? 既 要 做 到 不 说 


出 密码 ， 又 要 让 对 方 知道 自己 拥有 密码 ， 应 该 怎样 实现 ? Kerberos 自 有 
一 套 严密 的 办 法 。 

1， 账 号 A 利 用 hash 函 数 把 密码 转化 成 一 把 密 钥 ， 我 们 称 它 为 Kclt。 

2. 用 Kalt 把 当前 时 间 惟 加 密 ， 生 成 一 个 字符 串 。 我 们 用 “{ 时 间 截 } 
Kclt" 来 表示 它 。 

3， 把 上 一 步 生成 的 字符 串 “{ 时 间 戳 } Kdlt*"、 账 号 A 的 信息 ， 以 及 
一 段 随机 字符 串 发 给 KDC。 这 样 就 组 成 了 Kerberos 的 身份 认证 请 求 
AS_REQ。 我 们 用 下 面 这 个 公式 来 表示 这 个 请 求 。AS_REQ ="{ 时 间 截 } 
Kalt”，“ 账 号 A 的 信息 ", “随机 字符 串 ” 

如 图 1 所 示 ， 我 实验 室 中 的 账户 名 字 为 linp1， 本 次 生成 的 随机 字符 
串 是 136224786。 
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4. KDC 收 到 AS_REQ 之 后 ， 先 读 到 账号 A 的 信息 “linp1”"， 于 是 便 调 
出 A 的 密码 ， 再 用 同样 的 hash 函 数 转化 为 Kdt。 有 了 Kalt 就 可 以 解 开 “{ 时 
间 戳 } Kalt* 了 ， 如 果 能 解 开 则 说 明 该 请 求 是 由 账号 A 生成 的 ， 因 为 其 他 
账号 不 可 能 有 Kclt 可 以 加 密 。 

Kerberos 为 什么 要 选用 时 间 惟 来 加 密 ， 而 不 是 其 他 呢 ? 原因 就 是 黑 


客 可 能 在 网 络 上 截获 字符 串 “{ 时 间 戳 } Kclt"， 然 后 伪装 成 账户 A 来 骗 认 
证 。 这 种 方式 称 为 重 放 攻击 。 重 放 攻 击 的 伪装 过 程 需要 一 段 时 间 ， 所 以 
KDC 把 解密 得 到 的 时 间 惟 和 当前 时 间作 对 比 ， 如 果 相 差 过 大 就 可 以 判断 
是 重 放 攻 击 了 。 假 如 采用 与 时 间 无 关 的 字符 来 加 密 ， 则 无 法 避 开 重 放 攻 
击 ， 这 就 是 我 们 必须 在 域 中 同步 所 有 机 器 时 间 的 原因 。 

5， 接 下 来 轮 到 KDC 向 账号 A 证 明 自 己 的 身份 了 ， 上 文 提 到 的 随机 
字符 串 就 用 在 这 里 。 理 论 上 KDC 只 要 用 Kclt 加 密 随机 字符 串 ， 再 回复 给 
账号 A 就 可 以 证 明 自己 的 身份 了 。 因 为 假 的 KDC 是 没有 Kclt 的 ， 账 户 A 
拿 到 回复 之 后 解 不 出 那个 随机 字符 串 ， 就 知道 KDC 有 假 。 

总 结 以 上 过 程 ， 账 号 A 和 KDC 都 没有 向 对 方 发 送 密码 ， 所 以 即便 一 
方 是 假 的 也 不 会 泄露 信息 。 而 如 果 双 方 都 是 真 的 ， 则 实现 了 互相 认证 ， 
可 以 算是 完美 了 。 不 过 这 个 机 制 下 的 KDC 会 非常 忙碌 ， 假 设 每 次 认证 都 
得 调 出 账号 密码 、hash、 解 密 .….…… 而 且 每 个 客户 端 一 天 可 能 要 验证 数 十 
次 ， 那 域 中 就 得 配备 大 量 的 KDC 才 负担 得 起 。 有 没有 办 法 进一步 改进 
呢 ?Kerberos 为 此 设计 了 一 个 精巧 的 方法 。 

a，KDC 生 成 两 把 一 样 的 密 钥 Kclt-Kdc， 作 为 以 后 账户 A 和 KDC 之 间 
互相 认证 之 用 ， 这 样 就 省 去 了 调 出 账号 A 的 密码 和 hash 等 工作 。 按 理 说 
其 中 一 把 Kclt-Kdc 要 发 给 账户 A 保管 ， 另 一 把 由 KDC 自 己 保管 。 但 是 保 
管 密 钥 对 忙碌 的 KDC 来 说 也 是 一 个 负担 ， 所 以 它 决定 委托 给 账户 A 保 
管 ， 以 后 账号 A 每 次 需要 KDC 的 时 候 ， 再 把 这 把 密 钥 还 回来 。 这 个 办 法 
听 上 去 不 太 靠 谱 ， 万 一 有 个 假冒 的 账户 A 交 回来 一 把 假 密 钥 怎么 办 ? 为 
了 避免 这 个 问题 ，KDC 把 自己 的 密码 hash ”成 Kkdc， 然 后 用 它 加 密 那 把 
委托 给 A 的 密 钥 。Kerberos 里 把 这 个 委托 的 密 钥 称 为 TGT (Ticket 
Granting Ticket) ， 可 以 用 下 面 的 公式 来 表示 。 

TGT = { 账 户 A 相 关 信 息 ，Kclt-kdc} Kkdc 

有 了 这 个 委托 保存 的 机 制 ，KDC 只 需 记 得 自己 的 Kkdc， 就 能 解 开 
委托 给 所 有 账号 的 TGT， 从 而 获得 与 该 账号 之 间 的 密 钥 。 通 过 这 个 机 
制 ，KDC 的 工作 负担 就 大 大 降低 了 。 





总 结 下 来 ， KDC 回 复 给 账户 A ”的 AS_REP 应 包含 以 下 信息 ( 见 图 
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b， 账户 A 收 到 AS-REP 之 后 利用 Kclt 解 密 "{Kclt-kdc 时 间 惟 ， 随 机 字 
符 串 } Kclt"。 通 过 解 开 来 的 随机 字符 串 和 时 间 惟 来 确定 KDC 的 真实 性 ， 
然后 把 Kclt-kdc 和 TGT 保 存 起 来 备用 。 

第 二 步 ， 账 号 A 请 KDC 帮 忙 认证 资源 B。 

1， 这 时 应 该 发 什么 给 KDC 呢 ?首先 TGT 是 肯定 要 交还 给 KDC 的 ， 

其 次 还 有 账户 A 的 相关 信和 时 间 戳 ， 以 及 要 访问 的 资源 B 的 信息 
〈 见 图 3) 。 这 个 请 求 在 Kerberos 中 称 为 TGS-REQ， 可 以 用 下 面 的 公式 
表示 。 

TGS_REQ = TGT，{ 账 户 A 相 关 信 息 ， 时 间 戳 }Kclt-kdc,“ 资 源 B 相 
关 信 息 ” 











No Source Destnaton Time Protocel Info 
D1 10.32,106,116 10.32,105,103 15:14;04.458392 KRs3 Tes-REQ 
0 32,106.103 10, 12.106. 115 15:14+04, 489261 KRS5 TES-REP 
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2. KDC 收 到 TGS-REQ 之 后 ， 先 用 Kkdc 解 密 TGT 得 到 Kclt-kdc， 再 
用 Kclt-kdc 解 密 出 账号 A 的 相关 信息 和 时 间 截 来 验证 其 身份 。 一 旦 认定 
账号 A 为 真 ， 就 要 想 办 法 帮助 A 和 B 互 相 认证 了 。 

3 KDC 生 成 两 把 同样 的 密 钥 供 A 和 B 之 间 使 用 ， 我 们 就 称 这 个 密 钥 
为 Kclt-srv 吧 。 其 中 一 把 密 钥 直接 交 给 账号 A， 另 一 把 委托 A 转交 给 资源 
B。 为 了 确保 A 不 会 受到 假 的 资源 B 所 骗 ， ee 
后 用 它 加 密闭 把 委托 A 转 交 给 B 的 Kclt-srv， 成 为 一 张 只 有 真正 
。 总 结 起 来 ， ee ( 见 








Ticket = { 账 号 A 的 信息 ，Kclt-srvjKsrv 
TGS_REP = {Kalt-srv}Kclt-kde, Ticket 
这 里 的 “账号 A 的 信息 ”可 不 仅仅 包括 名 字 ， 连 A 所 在 的 Domain 
Groups 都 包含 在 里 面 。 所 以 如 果 A 属 于 很 多 个 groups，TGS_REP 包 会 非 
常 大 。 














4， 账 号 A 收 到 TGS_REP 之 后 ， 先 用 Kclt-kdc 解 开 {Kclt-srv}Kclt- 
kdc， 从 而 得 到 Kclt-srv。Ticket 留 着 发 给 资源 B。 接 下 来 如 果 需 要 多 次 访 
B， 都 可 以 使 用 同一 个 Ticket， 而 不 需要 每 次 都 向 KDC 申 请 ， 这 
也 大 大 降低 了 KDC 的 负担 。 
第 三 步 ， 账 号 A 和 资源 互相 认证 。 

1， 到 这 一 步 就 简单 了 。 账 号 A 给 资源 B 发 送 “{ 账 号 A 的 信息 ， 时 间 
戳 } Kdlt-srv" 以 及 上 一 步 收 到 的 Ticket。 这 个 请 求 称 为 AP_REQ。 

AP_REQ =“{ 账 号 A 的 信息 ， 时 间 堆 } Kclt-srv”，Ticket 

2， 如果 资 源 B 是 假 的 ， 它 是 解 不 开 Ticket 的 。 如 果 资 源 B 是 真 的 ， 
它 可 以 用 自己 的 密码 生成 Ksrv 来 解 开 Ticket， 从 而 得 到 Kclt-srv。 有 了 
Kalt-srv 就 可 以 解 开 “{ 账 号 A 的 信息 ， 时 间 截 } Kclt-srv* 部 分 。 这 样 资源 B 
就 可 以 确定 账号 A 为 真 ， 然 后 回复 AP_REP 来 证 明 自 己 也 是 真 的 。 

AP _REP = {时 间 截 }Kclt-srv 

3。 账号 A 利 用 Kclt-srv 来 解密 AP_REP， 再 通过 得 到 的 时 间 戳 来 判断 
对 方 是 否 为 真 。 

第 三 步 是 抓 不 到 网 络 包 的 ， 因 为 这 个 实验 过 程 是 用 户 linp1 登 录 
Windows 服 务 器 CAVA， 第 三 步 没 有 发 生 在 网 络 上 。 假 如 接 下 来 用 户 
linp1 访 问 CAVA 之 外 的 其 他 资源 ， 比 如 访问 网 络 共享 ， 我 们 就 能 在 
Session ”Setup 里 找到 AP_REQ 和 AP_REP 了 。 如 图 5 所 示 ， 我 在 Session 
Setup AndX Request 包 中 点 开 Security Blob， 就 把 AP_REQ 显 示 出 来 了 。 
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如 果 这 是 你 第 一 次 认识 Kerberos， 我 估计 已 经 看 得 云 里 雾 里 了 。 请 
相信 这 是 人 类 的 正常 反应 ， 我 给 好 几 批 工 程 师 培 训 过 Kerberos， 几 乎 没 
有 人 能 很 快 理 清楚 的 。 图 6 是 整个 认证 过 程 的 流程 图 ， 也 许 对 理解 会 有 
所 帮助 。 





当 你 完全 理解 Kerberos 之 后 ， 可 能 会 意识 到 一 个 问题 : 不 对 啊 ， 那 
么 多 加 密 信息 都 被 Wireshark 显 示 出 来 了 ， 还 有 什么 安全 可 言 ? 其 实 我 
是 用 linp1 的 密码 生成 了 一 个 keytab 文 件 ， 再 用 它 来 解密 的 。 具 体操 作 如 
下 。 

1.， 参照 Wireshark 的 官方 说 明生 成 keytab 文 件 ， 步 又 请 参考 
http://wiki. wireshark.org/Kerberos- 

2， 把 这 个 文件 和 网 络 包 放 到 同一 个 目录 里 。 

3. 打开 Wireshark 的 Edit-->Preferences-->Protocols-->KRB5 菜 单 ， 在 
图 7 所 示 的 窗口 勾 上 两 个 选项 ， 然 后 输入 keytab 文 件 的 名 字 。 











图 7 


4. 打开 网 络 包 ， 就 能 看 到 解密 后 的 内 容 了 。 

这 也 是 我 喜欢 Wireshark 的 原因 之 一 ， 即 使 像 Kerberos 这 么 复杂 的 协 
议 ， 它 也 能 完全 解析 出 来 。 这 简直 是 域 管理 员 的 福音 。 我 稍 作 回忆 ， 就 
能 想到 很 多 处 理 过 的 Kerberos 相 关 例 子 。 
案例 1: 某 客户 可 以 用 “\\<IP 地 址 >” 访 问 某 文件 服务 器 ,但 用 了 “\\< 
域名 >” 则 不 能 访问 。 

用 了 Wireshark 抓 包 才 知 道 ， 客 户 端 用 IP 访 问 时 用 了 NTLM 作 身份 验 
证 ， 而 用 域名 访问 时 则 用 Kerberos。 由 于 两 种 验证 方法 机 制 不 同 ， 所 以 





结果 也 不 一 样 。 比 如 当 客户 端 和 服务 器 的 时 间 没 有 同步 时 ，Kerberos 会 
认为 该 访问 是 重 放 攻击 而 拒绝 访问 ， 但 NTLM 不 会 。 

案例 2: 一 个 域 账号 明明 被 加 到 某 个 组 里 ， 该 组 也 被 赋予 访问 文件 夹 的 
权限 ， 但 是 该 账号 就 是 访问 不 了 这 个 文件 夹 。 

用 Wireshark 解 密 了 AP_REQ 之 后 ， 并 没有 看 到 那个 组 。 很 可 能 是 用 
户 登 录 〈 获 得 包含 组 信息 的 ticket) 之 后 ， 才 被 加 到 那个 组 里 的 。 让 该 
用 户 注销 后 再 登录 ， 获 得 新 Ticket 就 好 了 。 
案例 3: 某 台 客户 端 加 入 域 失败 ， 查 了 很 久 都 没 找到 原因 。 

用 了 Wireshark 之 后 ， 在 包 里 发 现 
"KRB5KRB_ERR_RESPONSE_TOO_BIG” 的 错误 信息 ( 见 图 8) 。 利 用 





TCP/IP 的 故事 


我 们 生活 在 这 样 一 个 时 代 : 只 要 连 上 网 络 ， 就 可 以 和 朋友 交流 ， 无 


论 距 离 远近 ， 也 可 以 网 购 商 品 ， 发 拆 判 手 都 无 济 于 事 ， 还 可 届 正在 
发 生 的 大 小 事件 ， 像 皇上 批阅 奏章 一 样 日 理 万 机 。 用 我 们 这 一 行 的 表达 
方式 ， 可 以 说 现代 人 的 生活 是 基于 网 络 的 。 

网 络 的 流行 很 大 程度 上 要 归功 于 Vinton Cerf 和 Robert Kahn 这 对 老 搭 
档 〈 见 图 1) 。 他 们 在 20 世 纪 70 年 代 设计 的 TCPVIP 协 议 贡 定 了 现代 网 络 
的 基石 ， 也 因此 获得 过 计算 机 界 的 最 高 荣誉 一 图 灵 奖 。 











Vinton 和 Rohert 一 起 
图 1 


说 起 来 TCP/IP 还 不 是 这 两 位 互联 网 之 父 的 第 一 次 合作 。 在 此 之 前 ， 










J 2 与 了 阿 帕 网 的 开发 。 阿 帕 网 称 得 es 身 ， 当 时 谁 
也 没有 想到 ， 颠 覆 阿 帕 网 的 竟 是 它 的 两 者 。Robert 后 来 回忆 说 ， 


上 


a 工作 重心 从 阿 帕 网 转向 TCP/IP 时 ， 
低谷 ， 而 实际 上 那 才 是 他 事业 的 真正 开始 。 
Robert 为 人 低调 ， 每 次 接受 采访 都 一 本 正经 。 
于 他 的 趣事 很 多 。 比 如 他 和 女友 第 一 次 约会 
作 ea A 服 





边 的 人 都 以 为 他 的 事 } 





人 情 外 向 ， 关 
eth IT 男 

















enh 房间 修 录 
自然 也 包括 5Vinton 自 己 和 因为 夫妻 
常 吃力 ， 电 子 邮 件 就 为 他 从 不 少 便利 。 

现在 人 们 说 到 TCP/AP 时 ， 指 的 已 经 不 止 是 TCP 和 了 P 两 个 协议 ， 而 是 
包括 了 Application Layer、Transport Layer、 Internet Layer 和 Network 








AccessLayer 的 四 层 模型 。TCP 处 于 Transport 。 Layer， 市 IP 处 于 Internet 
Layer。 鲜 为 人 知 的 是 ， 一 开始 这 两 个 协议 并 没有 分 层 ， 而 是 合 在 一 起 
的 。 当 时 的 计算 机 科学 家 Jon Postel 对 此 批评 说 : 

“We are screwing up in our design of internet protocols by violating the 
principle of layering. Specifically we are trying to use TCP to do two things: 
serve as a host level end to end protocol, and to serve as an internet 
packaging and routing protocol. These two things should be provided in a 
layered and modular way. I suggest that a new distinct internetwork protocol 
is needed, and that TCP be used strictly as a host level end to end 
protocol.”( 我 们 违背 了 分 层 原 则 ， 从 而 搞 磺 了 网 络 协议 的 设计 。 有 具体 来 
说 ， 我 们 正在 尝试 使 用 TCP 来 做 两 件 事 : 作为 一 个 主机 级 别 的 端 到 端 协 
议 ， 同 时 也 作为 网 络 的 分 组 和 路 由 协议 。 这 两 件 事 本 应 该 用 分 层 和 模块 
化 的 形式 来 实现 。 我 建议 设计 一 个 新 的 网 络 互联 协议 ， 并 且 把 TCP 严 格 
限制 为 主机 级 别 的 端 到 端 协议 。) 

一 Jon Postel, IEN 2, 1977 

这 个 建议 一 年 后 被 采纳 了 ， 第 三 版 的 协议 决定 把 TCP 和 IP 分 离开 
来 ， 并 且 延 续 至 今 。 无 巧 不 成 书 ，Jon Postel 恰 好 是 Vinton 的 高 中 同学 ， 
也 是 阿 帕 网 项 目的 同事 。 他 在 1998 年 因 病 去 世 时 ，Vinton 为 他 写 了 一 篇 
感人 至 深 的 让 告 ， 并 且 作 为 RFC 2468 发 布 。 据 我 所 知 ， 这 是 唯一 一 篇 无 
关 技 术 的 RFC。 对 一 位 计算 机 科学 家 来 说 ， 这 也 许 是 最 有 意义 的 纪念 方 
式 。 我 们 今天 还 可 以 通过 http:/tools.ietf.org/htmlirfc2468 阅 读 它 。 

TCP/IP 的 设计 和 功 。30 年 来 ， 底 层 的 带宽 、 延 时 ， 还 有 介质 都 
发 生 了 翻 。 天 徐 地 的 变化 ， 顶 层 也 多 了 不 少 应 用 ， 但 TCP/IP 却 安 如 泰 
山 。 它 不 但 战胜 了 国际 标准 化 组 织 的 OSI 七 层 模 型 ， 而 且 目 前 还 看 不 到 
被 其 他 方案 取代 的 可 能 。 第 一 代 从 事 TCPVIP 工 作 的 工程 师 ， 到 了 退休 年 
龄 也 在 做 着 朝阳 产业 。 

令 人 费解 的 是 ， 现 在 的 大 学 课程 还 在 介绍 OSI 七 层 模型 。 它 和 
TCP/IP 模 型 的 对 应 关系 如 图 2 所 示 。 因 为 OSI 模 型 的 层 数 太 多 ， 很 多 学 生 















根本 理解 不 了 ， 甚 至 连 顺序 都 记 不 住 。 于 是 老师 们 就 用 “All People Seem 
To Need Data Processing" 来 帮助 记忆 ， 因 为 这 7 个 单词 的 首 字母 和 OSI 模 
型 每 一 层 的 首 字母 是 一 样 的 。 大 学 的 应 试 教育 由 此 可 见 一 斑 。 更 奇怪 的 
是 学 生 们 走出 校园 后 ， 会 发 现 这 个 笨重 的 七 层 模型 已 经 没有 市 场 。 虽 然 
历史 上 它 得 到 过 官方 的 大 力 支持 ， 但 是 市 场 明 显 更 青睐 TCP/IP 四 层 模 
OSI vs. TCP/P 
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按理 说 OSI 是 权威 组 织 ， 它 所 设计 的 模型 应 该 是 科学 的 。 为 什么 反 
而 会 不 受 欢 迎 呢 ? 很 多 专家 都 对 此 有 过 评论 ， 其 中 以 普度 大 学 特聘 教授 
Douglas Comer 的 批评 最 为 激烈 。 他 曾经 在 一 篇 文章 里 这 样 写 过 : 

“最 近 有 了 一 些 惊 人 的 发 现 : 我 们 都 知道 这 个 七 层 模型 是 由 一 个 小 组 

〈 见 图 3) 完成 的 ， 但 大 家 不 知道 的 是 ， 这 个 小 组 有 一 天 深夜 在 酒吧 里 
谈论 美国 的 娱乐 八卦 。 他 们 把 迪斯尼 电影 里 7 个 小 矮人 的 名 字 写 在 餐巾 
纸 上 ， 有 个 人 开玩笑 说 7 对 于 网 络 分 层 是 个 好 数字 。 第 二 天 上 午 在 标准 
化 委员 会 的 会 议 上 ， 他 们 传阅 了 那 张 餐巾 纸 ， 然 后 一 致 同意 昨 晚 喝 醇 时 
的 重大 发 现 。 那 天 结束 时 ， 他 们 又 给 七 个 层次 重新 起 了 听 上 去 更 科学 的 





名 字 ， 于 是 模型 就 诞生 了 。 





OSI 七 层 模型 工作 小 组 的 合影 
图 3 


这 个 故事 告诉 我 们 :如 果 你 是 标准 委员 会 中 的 工程 师 ， 请 不 要 和 同事 喝 
酒 一 深夜 在 酒吧 里 开 的 一 个 拙劣 玩笑 ， 却 可 能 成 为 业界 几 十 年 挥 之 不 去 
的 于 梦 。” 

Douglas 是 网 络 界 德高望重 的 前 辈 ， 他 回 到 普度 大 学 之 前 曾 是 Cisco 
的 Vice President of Research， 同 时 也 是 久负盛名 的 技 ， 所 以 他 的 
观点 很 有 代表 性 。 而 当时 业界 普遍 对 待 OSI 模 型 的 抵触 态度 ， 更 是 一 个 








fl 
有 力 的 佐证 。 幸 好 到 了 今天 ，OSI 模 型 几乎 名 存 实 亡 了 ， 它 对 我 们 的 影 
响 只 停留 在 还 没 来 得 及 更 新 的 教科 书 上 。 





上 在 这 一 步 ， 客 户 端 找到 服务 器 的 portmap 进 程 ， 向 它 查询 NFS 进 程 的 
端口 号 。 然 后 服务 器 的 portmap 进 程 回 复 了 2049。portmap 的 功能 是 维护 
一 张 进 程 与 端口 号 的 对 应 关系 表 ， 而 它 自己 的 端口 号 111 是 众所周知 

的 ， 其 他 进程 都 能 找到 它 。 这 个 角色 类 似 很 多 公司 的 前 台 ， 她 知道 每 个 





员工 的 分 机 号 。 当 我 们 需要 联系 公司 里 的 某 个 人 【比如 NEFS) 时， 可 以 
先 拨 前 台 (111)， 查 询 到 其 分 机 号 (2049)， 然 后 就 可 以 拨 这 个 分 机 号 了 。 
其 实 大 多 数 文件 服务 器 都 会 使 用 2049 作 为 NEFS 端 口号 ， 所 以 即便 不 先 咨 
询 portmap， 直 接连 2049 端 口 也 不 会 出 问题 。 

四 客户 端 尝试 连接 服务 器 的 NFS 进 程 ， 由 此 判断 2049 端 口 是 否 被 防火 
墙 拦截 ， 还 有 NFS 服 务 是 否 已 经 启动 。 

(3) 客户 端 再 次 联系 服务 器 的 portmap， 询 问 mount 进 程 的 端口 号 。 与 NFS 
不 同 的 是 ，mount 的 端口 号 比较 随机 ， 所 以 这 步 询 问 是 不 能 跳 过 的 。 

多 客户 端 尝试 连接 服务 器 的 mount 进 程 ， 由 此 判断 1234 端 口 是 否 被 防火 
墙 拦截 ， 还 有 mount 进 程 是 否 已 经 启动 。 

全 ”这 一 步 真 正 挂 载 了 /code 目 录 。 挂 载 成 功 后 ， 服 务 器 把 该 目录 的 flle 
handle 告 诉 客户 端 ( 要 点 开 详 细 信 息 才 能 看 到 File handle) 。 

(6) 在 我 看 来 这 一 步 没有 必要 ， 因 为 之 前 已 经 试 连 过 NFS 了 ， 再 测试 一 
次 有 何 意义 ? 我 猜 是 开发 人 员 不 小 心 重复 调用 了 同一 函数 ， 但 因为 没有 
抓 包 ， 所 以 测试 人 员 也 没有 发 现 这 个 问题 

(站 客户 端 获 得 了 该 文件 系统 的 大 小 和 空间 使 用 率 等 属性 。 我 们 在 客户 
端 上 执行 df 就 能 看 到 这 ， 
(8) 这 一 步 又 是 重复 操作 ， 更 让 我 怀疑 是 开发 人 员 的 玻 
说 明了 Wireshark 在 辅助 开发 中 的 作用 。 

(9) 这 个 fle handle 也 需要 从 包 的 详细 信息 里 才能 看 到 。 就 如 之 前 提 到 过 
的 ，NFS 操 作文 件 时 使 用 的 是 fle handle, 所 以 要 先 通过 文件 名 找到 其 file 
handle， 而 不 是 直接 读 其 文件 名 。 如 果 一 个 目录 里 文件 数量 巨大 ， 获 取 
file handle 可 能 会 比较 费时 ， 所 以 建议 不 要 在 一 个 目录 里 存放 太 多 文 
件 。 

(0) 在 创建 一 个 文件 之 前 ， 要 先 检查 一 下 是 否 有 同名 文件 存在 。 如 果 没 
有 才能 继续 写 ， 如 果 有 ， 要 询问 用 户 是 否 覆 盖 原 文件 

(1D) 这 是 COMMIT 操 作 。 对 于 async 方 式 的 WRITE Call， 服 务 器 收 到 Call 





















这 个 例子 也 


之 后 会 在 真正 存盘 前 就 回复 WRITE Reply， 这 样 做 是 为 了 提高 写 性 能 。 
那么 ， 客 户 端 怎么 知道 哪些 WRITE Call 已 经 真正 存盘 了 呢 ? COMMIT 操 
作 就 是 为 此 而 设计 的 。 只 有 COMMIT 过 的 数据 才 算 真正 写 好 。 





E 若 轻 
“一 小 时 内 给 你 答复 ” 


在 武侠 小 说 里 看 到 过 一 段 话 ， 大 意 是 练习 蛋 门 那 道 的 功夫 ， 很 快 便 
能 小 有 成 就 ， 但 永远 成 不 了 高 手 。 而 名 门 正派 的 武功 虽然 入 门 艰辛 ， 进 
步 缓慢 ， 却 是 成 为 一 代 宗 师 的 必由之路 。 这 段 话 深 得 我 心 ， 学 习 网 络 也 
只 能 老 老实 实地 去 参透 各 个 协议 ， 才 能 达到 最 高 境界 。 研 究 协议 的 过 程 
虽然 枯燥 缓慢 ， 但 是 不 可 或 缺 。 

有 的 技术 人 员 喜 欢 重启 一 下 或 者 通 来 碰 运 气 ， 虽 然 也 有 成 功 
的 时 候 ， 但 是 概率 很 低 。 如 果 一 个 人 经 常 有 这 样 的 好 运气 ， 那 去 赌场 上 
班 也 许 更 加 合适 。 我 最 近 处 理 过 的 一 个 案例 就 很 好 地 说 明了 这 一 点 。 

事情 是 这 样 的， 现场 工程 师 搭建 了 一 台 文 件 服务 器 来 提供 NFS 共 
享 ， 可 是 客户 端 一 直 挂 载 不 上 ， 每 次 尝试 都 收 到 同一 个 报错 “access 
如 图 1 所 示 。 























denied by server while mount 
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ee 日 
现场 工程 师 检查 了 服务 器 和 客户 端的 所 有 配置 ， 但 实在 找 不 出 原 








因 ， 于 是 这 个 问题 就 拖 了 好 几 天 。 当 他 焦急 地 打 我 电话 时 ， 据 说 客户 已 
经 彻底 失去 耐心 了 ， 在 机 房 里 响 哮 ，*I am going to throw the box out of 
the window"。 我 只 好 安慰 他 说 ,， “放心 吧 ， 帮 我 抓 一 个 网 络 包 ， 一 小 时 
内 给 你 答复 。” 

之 所 以 敢 承诺 这 么 短 的 时 间 ， 是 因为 我 已 经 处 理 过 上 百 个 类 似 的 问 
题 。 自 从 用 Wireshark 学 习 了 NFS 的 协议 细节 后 ， 我 可 以 用 它 很 快 地 解决 


任何 挂 载 问题 ， 至 今 没 有 失手 过。 其 实 一 小 时 还 是 保守 估计 ， 一 般 5 分 


钟 就 够 了 。 
现场 工程 师 很 快 就 把 配置 信息 和 网 络 包 传 过 来 了 : 
服务 器 IP: 
10.32.106.77 


NFS 共 享 的 访问 控制 : 

/paddynmfs 192.168.26.139 (rw) 

挫 只 人 允许 192.168.26.139 读 写 ， 其 他 客户 端 不 能 挂 载 
客户 端 卫 〔 见 图 2) : 




















现场 工程 师 的 排查 过 程 如 下 所 示 。 
[root@localhost ~j4telnet 10.32.106.77 111 
Trying 10.32.106.77... 
Connected to 10.32.106.77 (10.32.106.77). 
[root@localhost ~J#telnet 10.32.106.77 1234 
Trying 10.32.106.77... 
Connected to 10.32.106.77 (10.32.106.77). 
[root@localhost ~I#telnet 10.32.106.77 2049 
Trying 10.32.106.77... 
Connected to 10.32.106.77 (10.32.106.77). 
[root@localhost ~j# showmount -e 10.32.106.77 
/paddynmifs 192.168.26.139 


作为 “ 碰 运 气 ” 步 又 ， 现 场 工程 师 把 客户 端 和 服务 器 都 重启 过 了 ， 但 


结果 还 是 一 样 。 
我 仔细 检查 完 以 上 信息 ， 结 论 和 现场 工程 师 一样 一 一 服务 器 和 客户 
端的 配置 都 没 问题 。 而 且 从 排查 过 程 还 可 以 知道 : 


。 ”从 telnet 的 输出 结果 可 见 portmap (111) 、mount (1234) 以 及 
NFS (2049) 进程 所 对 应 的 端口 都 是 可 达 的 ; 这 说 明 网 络 是 通 的 ， 没 有 
防火 墙 之 类 的 设备 拦截 了 挂 载 请 求 ， 


* 从 showmount 的 结果 可 以 看 到 ， 挂 载 时 指定 的 共享 路 径 也 是 正确 
的 。 


到 这 里 我 也 有 点 迷惑 ， 一 时 想 不 出 问题 出 在 哪里 。 阅 读 以 下 内 容 之 
前 ， 建 议 你 停 下 来 思考 一 下 ， 还 有 什么 因素 可 能 导致 了 挂 载 失败 ? 

幸好 杀手 铜 没有 出 ， 我 用 Wireshark 打 开 在 服务 器 上 抓 到 的 包 ， 然 后 
用 192.168.26.139 过 滤 了 一 下 ， 如 图 3 所 示 。 
一 = 
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从 图 4 中 可 以 看 出 ， 客 户 端 10.32.200.45 发 送 了 mount 请 求 ， 但 被 服 


务 器 10.32.106.77 拒 绝 了 ， 这 倒 符合 “Access Denied” 的 症状 。 等 等 ， 客 户 
端的 了 不 应 该 是 192.168.26.139 吗 ， 怎 么 变 成 10.32.200.45 了 ? 这 时 候 我 
忧 然 大 悟 ， 两 个 网 络 之 间 估 计 存 在 NAT (Network Address 
Translation) ， 当 客户 端 发 出 的 请 求 经 过 NAT 设 备 时 ，Source IP 被 改 掉 
了 《图 5 显示 了 这 个 过 程 ) 。 
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图 5 


由 于 服务 器 上 的 访问 控制 只 允许 192.168.26.139 访 问 ， 所 以 来 自 
10.32.200.45 的 挂 载 请 求 自然 被 拒绝 了 。 

我 把 分 析 报告 发 给 现场 工程 师 。 他 和 客户 沟通 之 后 ， 果 然 证 实 了 我 
的 分 析 。 最 终 把 服务 器 和 客户 端 连 到 一 个 网 络 中 就 挂 载 上 了 。 

实施 部 门 的 经 理发 来 一 封 热 情 洋溢 的 感谢 信 ， 这 让 我 想起 几 年 前 第 
一 次 得 到 Patrick 的 帮助 时 ， 我 也 表达 过 同样 的 感激 之 情 。 其 实 我 们 还 应 
该 感谢 的 ， 是 Gerald Combs。 假 如 没有 他 的 Wireshark， 我 可 能 至 今 还 不 
理解 NFS 的 挂 载 过 程 ， 更 不 要 说 一 小 时 内 就 找 出 问题 。 那 天 我 把 MSN 签 
名 档 改 成 了 “Life is tough, but Wireshark makes it easy”。 


午夜 铃声 


“ 呆 铃 铃 ….… 盯 铃 铃 .…….” 一 阵 手机 铃声 打 断 了 我 的 美梦 。 

我 忱 愧 中 按 下 接听 键 ， 况 然 是 老板 的 声音 ,“ 阿 满 ， 真 不 好 意思 ， 
这 么 晚 还 打 你 电话 。” 一 番 寒 上 喧 之 后 ， 有 了 下 面 的 对 话 。 
老板 :“ 我 司 在 为 xx 电 视 台 实施 Isilon， 现 场 团队 被 一 个 读 性 能 的 问题 卡 
了 好 几 天 了 。 所 以 美国 总 部 刚刚 打 电 话 给 我 ， 希 望 一 位 懂 网 络 的 专家 能 








尽快 飞 到 北京 ， 你 看 
我 :“ 我 看 最 近 招 的 两 位 CCIE 都 不 错 ， 让 他 们 去 锻炼 一 下 嘛 。 我 明天 要 
搬家 ， 老 婆 又 在 发 烧 。” 
老板 : “这 个 项 目 对 我 们 太 重要 了 ，# 王 90*@S$A& (此 处 省 略 300 
字 ) 你 完全 不 用 担心 ， 我 会 派 几 个 人 蔡 你 搬家 。 
我 : 〈 赶 在 老板 派 人 帮 我 照顾 老婆 之 前 )“ 好 吧 ， 我 准备 一 下 。” 

挂 了 电话 ， 赶 紧 搜索 一 下 Isilon， 才 知道 是 我 司 最 近 收 购 的 NAS， 
以 性 能 卓越 著称 。 是 什么 问题 能 让 实施 团队 卡 住 好 几 天 呢 ? 看 看 时 钟 已 
经 是 凌晨 2 点 了 ， 便 让 现场 的 工程 师 先 把 网 络 包 传 上 来 再 说 。 

5 点 钟 起 床 ， 司 机 已 经 等 在 楼 下 了 (我 司 对 待 甲 方 的 态度 和 效率 
常常 让 员工 们 妒忌 ) 。 一 路 疾 驶 到 办 公 室 ， 网 络 包 也 已 经 上 传 完毕 。 我 
用 Wireshark 粗 略 一 看 ， 发 现 很 多 包 发 生 了 重 传 (Retransmission) ， 而 
且 还 有 大 量 乱 序 (Out-Of-Order) 。 下 面 是 Wireshark 的 分 析 结果 。 

重 传 ( 见 图 1) : 
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乱 序 〈 见 图 2) : 
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我 的 第 一 反应 便 是 乱 序 导致 了 重 传 ， 从 而 影响 了 性 能 。 乱 序 为 什么 


会 导致 重 传 呢 ? 本 书 的 TCP 相 关内 容 其 实 已 有 详细 解释 ， 下 面 再 简单 介 
绍 一 下 。 

在 正常 情况 下 ， 网 络 包 到 达 接收 方 时 的 Seq 号 应 该 是 顺序 的 ， 比 如 
在 每 个 包 长 度 为 1460 的 情况 下 ，Seq 号 可 能 是 这 样 的 : 1460，2920， 
4380.……. 因 此 接收 方 能 算出 下 一 个 包 的 Seq 号 应 该 是 什么 。 比 如 4380 之 
后 应 该 是 4380+1460=5840， 假 如 收 到 的 不 是 5840， 接 收 方 就 知道 包 序 乱 
了 。 这 时 它 应 该 回复 一 个 包 给 发 送 方 ， 说 “我 要 的 是 5840〈 即 Ack 
5840) ”。 如 果 接 下 来 收 到 的 包 仍然 不 是 5480， 那 接收 方 就 再 回复 一 
次 “我 要 的 是 5840”。 

而 对 于 发 送 方 来 说 ， 持 续 收 到 “我 要 的 是 5840” 可 能 意味 着 5840 跑 到 
其 他 包 后面 了 ， 也 可 能 意味 着 5840 已 经 丢失 。RFC 里 这 样 定义 ， 如 果 发 
送 方 收 到 3 个 及 以 上 重复 的 “我 要 的 是 x”"， 即 可 认为 包 x 已 经 丢失 ， 应 当 
启动 快速 重 传 。 图 3 演示 了 这 个 过 程 。 






乱 序 触发 快速 重 传 





发 送 方 接收 方 
图 3 
最 终 接 收 方 会 收 到 两 个 一 样 的 Seq=5480， 即 乱 序 了 的 原始 包 ， 还 有 
一 个 重 传 包 。 其 中 第 二 个 到 达 的 包 相当 于 浪费 了 。 
我 在 Wireshark 上 随机 挑 出 几 个 重 传 包 ， 发 现 方向 都 是 从 Isilon 到 


Windows 的 ， 恰 好 符合 读 性 能 差 的 症状 。 分 析 到 这 里 ， 我 仿佛 看 到 一 丝 
电光。 一般 来 说 ， 乱 序 可 能 是 由 发 送 方 或 者 网 络 设备 导致 的 ， 我 还 应 该 
在 发 送 方 抓 包 进一步 调查 。 但 因为 手头 上 只 有 在 接收 方 抓 的 包 ， 所 以 只 
能 到 了 现场 再 说 了 。 在 赶 往 机 场 的 路 上 ， 我 草拟 了 一 个 计划 。 

1， 把 Isilon 和 Windows 客 户 端 连 到 同一 台 空 闲 的 交换 机 ， 尽 量 排除 
网 络 设备 

的 影响 。 

2. Isilon 和 其 他 服务 器 一 样 ， 应 该 有 类 似 NIC teaming 的 功能 。 根 据 
我 的 经 验 ， 乱 序 有 时 候 就 是 由 teaming 导 致 的 ， 可 以 尝试 关闭 。 我 不 久 
前 还 碰 到 过 Large Segment Offload (LSO) 导致 的 乱 序 ， 也 是 一 个 考虑 





3. 实在 不 行 ， 就 在 Isilon 和 Windows 上 同时 抓 包 ， 两 者 一 对 比 便 能 
发 现 很 多 问题 。 

到 了 北京 已 经 是 下 午 了 。 和 几 位 来 自 中 国 香港 、 美 国 、 和 日 本 的 工 
程 师 边 吃 边 聊 。 原 来 他 们 这 几 天 做 过 很 多 方面 的 尝试 ， 包 括 我 计划 中 的 
第 1 步 ， 但 是 性 能 没有 任何 改变 。Windows 客 户 端 也 换 过 几 台 ， 但 结果 
都 差不多 。 目 前 来 看 网 络 设备 和 客户 端 都 不 是 瓶颈 ， 估 计 原 因 就 出 在 
Isilon 上 了 。 也 许 明 天 关闭 Isilon 上 的 NIC teaming 和 LSO， 问 题 就 解决 了 
吧 ? 这 个 时 候 我 还 是 挺 乐 观 的 。 

第 二 天 一 大 早 便 赶 到 了 xx 电视 台 的 新 大 楼 ， 比 约定 时 间 早 了 3 小 
时 。 这 是 我 第 一 次 体会 到 现场 工程 师 的 辛苦 一 所 有 操作 都 要 等 待 客户 审 
批 ， 搭 个 测试 环境 就 花 了 半天 时 间 ; 而 且 五 六 个 人 只 能 共用 一 台电 脑 ， 
我 在 操作 的 时 候 其 他 工程 师 就 只 能 等 着 ， 最 可 怕 的 是 机 房 里 的 冷气 ， 待 
了 几 个 小 时 之 后 实在 招架 不 住 。 

幸好 一 切 都 在 按 计划 进行 。 我 们 终于 在 Isilon 上 找到 Large Segment 
Offload 和 NIC teaming 的 开关 ， 并 满怀 希望 地 关闭 了 它们 。 当 我 启动 测 
试 脚本 的 时 候 ， 几 位 饱 受 折磨 的 现场 工程 师 都 凑 过 来 看 …… 可 异 结 果 令 
人 大 跌眼镜 一 读 性 能 比 之 前 还 差 ! 我 顿时 觉得 非常 尴 众 ， 对 着 等 待 我 下 





一 步 建议 的 同事 们 ， 只 能 说 先 抓 个 包 看 看 吧 。 这 一 抓 包 更 是 意外 ， 居 然 
看 不 到 乱 序 的 包 了 ! 可 见 我 之 前 的 猜测 没有 错 ， 乱 序 是 由 NIC teaming 或 
者 LSO 导 致 的 。 但 为 什么 消除 了 乱 序 之 后 性 能 没有 改善 呢 ? 再 看 看 重 伟 
率 ， 果 然 还 是 很 高 。 

到 这 里 只 剩 下 一 个 解释 了 一 重 传 并非 乱 序 引 起 的 ， 也 就 是 说 从 一 开 
始 就 走 错 方向 。 我 不 得 不 一 个 人 坐 到 角落 里 ， 重 新 研究 昨天 拿 到 的 网 络 
包 。 当 我 逐个 检查 乱 序 的 包 时 ， 果 然 看 到 了 一 个 很 有 趣 的 现象 。 如 图 4 
所 示 ， 虽 然 乱 序 的 包 很 多 ， 但 只 是 相 邻 两 个 包 的 颠倒 ， 因 此 接收 方 只 发 
出 了 1 个 “我 要 的 是 x”"， 而 不 会 关 满 3 个 以 上 相同 的 “我 要 的 是 x” 来 触发 重 
传 。 这 就 解释 了 为 什么 重 传 不 是 由 乱 序 导 致 的 。 








小 幅度 乱 序 不 触发 快速 重 传 
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图 4 


举 个 更 通俗 的 例子 ， 当 序号 为 1、2、3、4、5、6 的 一 系列 包 到 达 接 
收 方 时 ， 如 果 次 序 乱 成 了 2、1、4、3、6、5， 是 不 会 触发 快速 重 传 的 ; 
但 如 果 乱 成 2、3、4、5、6、1， 就 会 导致 重 传 。 

再 分 析 消 除 乱 序 后 在 接收 方 抓 到 的 网 络 包 ， 现 象 就 更 加 有 趣 了 。 如 
图 5 所 示 ， 接 收 方 明明 收 到 了 Seq 20440 (Frame No. 3) ， 但 它 竟然 发 送 


了 4 个 “Ack 20440” 给 发 送 方 ， 从 而 促使 发 送 方 重 传 了 Seq 20440 (Frame 
No.13) 。 



























































Frame No. Source Destination 
1 Seq 17520 Seq 17520 
2 “| sa 上 | Seq18980 
3 Seq20440 [=| seq 20440 
4 $eq21900 | seq21900 
5 seq23360| | seq23360 
6 |seq24820[———————— | Seq24820 
7 |seq26280[— | Seq26280 
8 Ack 20440 上 Ack20440 








9 Ack 20440 上 |] Ack20440 


10 “|Ack2040|- | Ack 20440 








1 Ack 20440 上 ~ Ack20440 








12 “| Ask 27740|- | Ack27740 








13 | seq20440 
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图 5 


这 个 现象 实在 太 “ 不 科学 "了 。 按 理 说 这 个 包 是 在 接收 方 抓 的 ， 
Wireshark 上 也 已 经 显示 了 “Seq ”20440”， 就 意味 着 接收 方 已 经 收 到。 为 
什么 还 会 连 发 4 个 Dup Ack 呢 ? 我 百 思 不 得 其 | 希 
望 一 只 要 解 开 这 个 谜团 ， 问 题 或 许 就 能 解决 了 。 机 房 里 强劲 的 冷气 让 我 
有 些 分 神 ， 于 是 我 独自 践 到 走廊 上 ， 从 头 开始 分 析 。 

我 回忆 起 RFC 中 关于 快速 重 传 的 描述 :“ 当 接收 方 收 到 比 期 望 值 大 
的 Seq 时 ， 就 要 向 发 送 方 Ack 它 期 望 的 Seq 值 ……” 根 据 这 个 理论 ， 难 道 接 
收 方 在 收 到 20440 之 前 ， 已 经 收 到 了 21900、23360、24820 和 26280 这 4 个 
包 ? 从 Wireshark 里 看 20440 明 明 是 排 在 这 4 个 包 前 面 的 ! 






会 不 会 是 20440 本 身 的 checksum 有 问题 ， 被 接收 方 抛弃 了 呢 ? 再 看 
看 图 5 中 最 后 两 个 包 ， 重 传 的 Seq 20440 (Frame No. 13) 到 达 接收 方 之 
前 ， 接 收 方 已 经 回复 了 “Ack 27740”(Frame No. 12) ， 这 表明 接收 方 收 
到 了 27740 之 前 的 所 有 包 ， 包 括 20440。 也 就 是 说 ，20440 真 的 是 被 移 到 
26280 后 面 了 ， 而 不 是 因为 checksum 无 效 被 抛弃 。 

那 是 什么 因素 导致 接收 方 把 20440 移 到 26280 后 面 呢 ? 目前 我 不 得 而 
知 ， 但 TCP/IP 是 分 层 协作 的 ， 也 许 是 网 络 层 把 包 交 给 TCP 层 时 打 乱 了 。 

分 析 到 这 里 ， 可 以 肯定 重 传 的 根本 原因 就 是 接收 方 自身 的 乱 序 ， 而 
网 络 设备 和 Isilon 都 被 冤枉 了 。 这 是 我 第 一 次 看 到 此 类 现象 ， 不 但 颠覆 
了 我 昨天 的 分 析 结 果 ， 而 且 难 以 说 服 现场 工程 师 和 客户 。 他 们 已 经 测试 
了 7 台 客户 端 ， 但 结果 都 是 一 样 的 ， 难 不 成 7 台 都 出 了 同样 的 问题 ? 这 概 
率 低 得 令 人 难以 置信 。 接 下 来 就 是 一 场 场 辩论 ， 电 视 台 请 来 了 他 们 的 网 
络 专家 ， 和 希望 说 服 我 进一步 检查 Isilon。 我 无 法 向 他 解释 为 何 所 有 客户 
端 都 有 同样 的 问题 ， 他 也 不 能 反驳 Wireshark 上 显示 的 证 据 。 一 直 拉 句 到 
夜里 12 点 都 没有 吃 上 饭 ， 一 位 同事 已 经 出 现 了 低 血 糖 症状 。 还 好 最 后 查 
到 一 个 重要 信息 ， 原 来 那 ? 台 客户 端 都 是 用 同一 张 ghost 盘 安 装 的 ， 客 户 
终于 让 步 ， 答 应 明天 新 装 7 台 客户 端 供 我 们 测试 。 但 同时 也 有 一 个 要 
求 ， 明 早 必须 提供 一 个 官方 的 分 析 报告 ， 证 明 的 确 是 客户 端 导致 的 问 
题 。 

草草 吃 完 晚饭 ， 已 经 是 凌晨 酒店 非常 贴心 ， 为 我 准备 好 了 巧 
克 力 ， 拆 好 拖鞋 ， 甚 至 掀 好 了 被 子 ， 可 惜 这 些 我 都 没有 机 会 享受 。 等 写 
完 分 析 报告 ， 已 经 到 了 凌晨 3 点 半 。 没 睡 下 多 久 ，moming call 又 来 
再 次 感叹 现场 工程 师 的 辛苦 ， 这 只 是 我 第 三 个 晚上 没 睡 好 ， 而 他 
们 估计 已 经 有 一 周 了 。 我 睡 眼 悍 恰 地 到 了 电视 台 门 口 ， 远 远 看 到 树林 里 
似乎 有 家 咖啡 店 ， 像 看 到 救命 稻草 一 样 直 奔 过 去 。 到 了 近 处 才 发 现 
是 “Post Office"， 远 看 还 真 像 是 coffee.…… 

现场 工程 师 手脚 麻利 ， 很 快 就 搭 好 新 的 环境 。 到 早上 10 点 钟 我 们 又 
一 次 启动 测试 脚本 ， 这 一 次 每 台 的 读 性 能 都 达到 100MB/s 以 上 ， 大 大 超 















过 了 客户 80MB/s 的 预期 。 现 场 的 工程 师 异常 兴奋 ， 给 测试 结果 拍照、 
截屏 ， 其 至 拍 了 一 段 视频 。 他 们 为 这 个 项 目 压抑 太 久 了 ， 需 要 好 好 庆 
祝 。 

而 我 也 缘起 笔记 本 ， 向 这 栋 造 型 诡异 的 建筑 、 向 这 个 奇怪 的 问题 告 
别 ， 匆 匆 赶 往 首都 机 场 。 家 里 还 有 发 烧 的 老婆 ， 没 搬 完 的 家 .…… 


深 藏 功 与 名 


每 当 我 要 写 一 个 真实 的 Wireshark 案 例 时 ， 感 觉 就 像 在 自我 表扬 。 这 
实在 不 符合 阿 满 低调 的 个 性 ， 但 是 没 办 法 ， 谁 让 Wireshark 这 么 神奇 呢 ? 
不 久 前 我 处 理 的 一 个 Data Domain 项 目 ， 便 是 极 好 的 例子 。 

我 之 前 对 Data Domain 的 了 解 并 不 多 ， 只 知道 是 普林斯顿 大 学 一 位 
华人 教授 的 发 明 ， 后 来 被 我 司 收购 了 。 所 以 当 项 目 经 理 打 我 电话 时 ， 也 
是 听 得 一 头 雾 水 。 大 概 了 解 到 的 症状 是 多 台 AIX 同 时 往 Data Domain 读 写 
数据 〈 如 图 1 所 示 ) 。 写 的 时 候 性 能 都 很 好 ， 能 超过 90MB/s; 但 读 的 时 
候 性 能 却 很 差 ， 在 20MB/s 以 下 。 驻 场 的 团队 已 经 耗 在 上 面 好 几 天 了 ， 

却 一 直 没有 进展 ， 留 给 我 的 时 间 已 经 不 多 了 。 


ow 
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图 1 


鉴于 项 目的 紧迫 性 ， 我 挂 了 电话 便 立 即 出 发 。 还 好 这 个 客户 的 数据 
中 心 在 上 海 郊 区 ， 我 得 以 在 路 上 仔细 分 析 。 
1. 一 般 存储 设备 都 是 读 比 写 快 ，Data Domain 应 该 也 不 例外 。 目 前 


的 现象 是 读 比 写 慢 得 多 ， 所 以 根本 原因 应 该 不 在 Data Domain 本 身 。 

2， 网 络 很 值得 怀疑 。 一 般 存储 端的 带宽 大 ， 客 户 端的 带宽 小 。 读 
文件 时 数据 从 大 带宽 进入 小 带宽 ， 就 如 同 大 河水 流入 小 河 ， 有 可 能 会 浇 
出 《表现 在 网 络 上 就 是 拥塞 ) 而 导致 性 能 问题 。 写 文件 时 方向 相反 ， 所 
以 拥塞 概率 低 ， 性 能 就 会 好 一 些 ， 正 好 符合 这 个 案例 的 症状 。 

3， 只 要 在 两 端 各 抓 一 个 网 络 包 ， 就 能 证 实 我 的 猜测 。 

中 午 12 点 ， 终 于 到 达 数据 中 心 。 我 让 司机 在 门口 等 一 会 ， 估 计 很 快 
就 能 出 来 了 《〈 颇 有 点 温 酒 斩 华 雄 的 气概 ) 。 结 果 见 到 客户 时 ， 人 家 说 午 
睡 时 间 到 了 ， 一 个 小 时 后 再 战 ， 说 完 便 从 桌子 底下 拉 出 折 和 登 床 来 。 我 只 
能 感叹 同行 不 同 命 一 忙碌 如 我 ， 能 保证 夜间 睡 7 小 时 就 不 错 了 ， 哪 里 敢 
奢望 午睡 ? 只 好 叫 司 机 先 回 家 ， 下 午 再 来 接 我 。 

好 不 容易 等 到 客户 收集 好 网 络 包 ， 用 Wireshark 打 开 一 看 ， 果 然 发 现 
了 好 多 重 传 ( 如 图 2 所 示 ) 。 重 传 对 性 能 的 影响 是 极 大 的 ， 即 便 是 0.59 
的 比例 也 会 使 性 能 大 幅度 下 降 。 
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图 2 


我 随机 看 了 几 个 重 传 包 ， 发 现 方向 都 是 从 Data Domain 到 AIX 的 。 说 
明 这 些 包 从 Data Domain 出 来 之 后 ， 在 路 上 丢失 了 ， 最 终 没有 到 达 AIX。 
Data Domain 因 为 一 直 没有 等 到 AIX 的 确认 包 ， 所 以 只 能 选择 重 传 。 

这 就 意味 着 我 之 前 在 路 上 的 推测 是 正确 的 ， 网 络 上 存在 瓶颈 。 客 户 
也 确认 AIX 端 的 带宽 只 有 存储 端的 10， 是 可 能 有 问题 。 不 过 由 于 网 络 
项 目 已 经 实施 完毕 ， 无 法 变动 ， 所 以 只 能 从 Data “Domain 和 AIX 上 想 办 

明明 知道 问题 发 生 在 网 络 上 ， 却 要 到 存储 端 和 客户 端 上 去 想 办 法 ， 
是 不 是 有 点 头痛 医 脚 的 感觉 ? 但 这 的 确 是 可 行 的 ， 我 至 少 能 想到 三 个 方 





案 。 

方案 1， 把 Data Domain 的 发 送 窗口 强制 成 较 小 的 值 ， 这 样 每 次 发 出 
去 的 数据 量 就 少 一 些 ， 拥 塞 的 概率 也 减 小 了 。 就 像 大 河 里 流 的 水 量 很 
少 ， 即 便 流入 小 河 也 不 会 漫 出 来 一 样 。 发 得 慢 当 然 对 性 能 有 影响 ， 但 由 
于 避免 了 丢 包 ， 所 以 总 性 能 反而 有 所 提升 。 该 方案 的 缺点 是 限制 了 Data 
Domain 给 所 有 网 络 设备 发 送 数据 的 速度 ， 不 仅 是 针对 AIX。 

方案 2， 把 AIX 的 接收 窗口 强制 成 较 小 的 值 。 这 样 Data 。 Domain 给 
AIX 传 数据 时 的 发 送 窗口 就 被 限制 了 ， 而 且 给 其 他 客户 端 发 数据 时 不 受 
影响 。 但 该 方案 的 缺点 是 限制 了 AIX 从 所 有 网 络 设备 接收 数据 的 速度 ， 
不 只 是 针对 Data Domain。 

以 上 两 个 方案 都 需要 选 定 一 个 较 小 的 窗口 值 ， 这 个 值 要 怎么 算出 来 
呢 ? 图 3 是 一 个 丢 包 的 例子 ， 发 送 方 一 口气 发 出 6 个 包 ， 但 其 中 最 后 一 个 
丢失 了 ， 最 后 导致 了 超时 重 传 。 





拥塞 窗口 的 估算 





发 送 方 接收 方 


图 3 


从 图 3 中 可 以 估算 出 丢 包 时 的 拥塞 点 大 约 为 前 5 个 包 所 携带 的 字 节 
数 。 只 要 按 这 个 方法 随机 找 出 多 个 拥塞 点 ， 就 大 概 能 选 定 合适 的 窗口 值 
了 。 

方案 3， 图 2 中 的 Wireshark 截 图 显示 重 传 的 包 为 5190、5192、 
5194.….….5230 《〈20 个 ) ， 而 且 这 些 重 传 包 都 是 连续 的 (图 4 显示 了 其 中 





图 4 





但 是 当 我 检查 接收 方 的 网 络 包 时 ， 发 现 其 实 只 有 5190 的 原始 包 是 真 
正 丢失 了 ， 其 他 的 包 都 到 达 了 接收 方 ， 所 以 没 必要 重 传 。 那 为 什么 发 送 
方 要 重 传 这 么 多 呢 ? 这 是 因为 发 送 方 发 现 5190 的 原始 包 丢 失 后 ， 无 法 确 
定 后 续 的 其 他 包 是 否 也 丢 了 ， 只 好 选择 全 部 重 传 。 而 接收 方 虽然 知道 丢 
了 哪些 包 ， 却 没有 任何 机 制 可 以 告知 发 送 方 。 这 个 问题 其 实在 1996 年 的 
RFC 2018 中 就 已 经 给 出 了 解决 方案 ， 它 就 是 Selective Acknowledgment， 
简称 SACK。 在 接收 方 和 发 送 方 都 启用 SACK 的 情况 下 ， 接 受 方 可 以 告 
诉 发 送 方 “我 没收 到 的 只 是 5190 的 原始 包 ， 但 是 我 收 到 了 其 他 的 。” 因 此 
发 送 方 只 需 重 传 5190 即 可 。 在 启用 了 SACK 的 网 络 包 中 ， 我 们 能 在 Dup 
Ack 包 里 看 到 这 些 信息 。 图 5 是 在 一 个 启用 SACK 的 环境 中 抓 的 包 ， 最 底 
部 就 是 SACK 信 息 。 
ee 


























图 5 


把 图 5 中 的 “Ack=991851”" 和 “SACK=992461-996175” 两 个 信息 综合 起 
来 ， 发 送 方 就 知道 991851 一 992460 的 包 没有 收 到 ， 而 后 面 的 992461 一 
996175 的 包 反 而 已 经 收 到 了 。 

因为 本 案例 中 存在 大 量 不 必要 的 重 传 ， 而 且 Dup ”Ack 包 中 也 没有 
SACK 信 息 ， 已 经 足以 说 明 SACK 没 有 启用 。 我 决定 先 不 限制 发 送 窗 
口 ， 把 SACK 打 开 再 说 。 是 否 启用 SACK 是 在 TCP 三 次 握手 时 协商 决定 
的 ， 如 图 6 中 方 框 内 的 参数 所 示 。 只 要 双方 中 有 一 方 没有 








图 6 


我 们 分 别 检查 了 DataDomain 和 AIX， 果 然 发 现 AIX 上 默认 关闭 了 
SACK。 于 是 客户 在 AIX 上 运行 了 “no -p -o sack=1” 命 令 ， 读 性 能 立即 就 
奖 升 到 90MB/s 以 上 ， 远 远 超过 项 目 需求 。 有 了 这 个 结果 ， 我 也 不 考虑 
方案 1 和 方案 2 了 ， 上 毕竟 都 有 副作用 。 

在 他 们 询问 我 的 名 字 前 ， 我 已 经 关上 车 门 ， 只 留 下 一 个 伟岸 的 背 
影 ， 深 藏 功 与 名 。 其 实心 里 还 有 一 个 怨念 ， 为 什么 他 们 就 可 以 午睡 ? 


棋 逢 对 手 


很 多 IT 圈 的 前 辈 都 有 过 苦 不 堪 言 的 经 历 ， 尤 其 是 在 运 维 部 门 。 为 了 
挽救 系统 ， 不 少 人 曾经 在 冰冷 的 机 房 连续 工作 十 多 个 小 时 ， 旁 边 还 站 着 
吃 哮 的 上 司 。 我 从 来 没有 做 过 一 线 工程 师 ， 所 以 没有 经 历 过 什么 惊 心 动 
魄 的 时 刻 。 如 果 要 跟 读者 分 享 一 个 印象 最 深刻 的 案例 ， 我 首先 想到 的 是 
一 个 不 算 紧急 ， 却 特别 考验 人 的 问题 ， 至 今 想 起 来 还 心 有 余 性 。 

那 是 一 位 澳洲 客户 的 文件 服务 器 ， 它 同时 为 多 台 Linux 应 用 服务 器 
提供 NFS 访 问 。 系 统 在 实施 阶段 非常 顺利 ， 于 是 便 择 日 上 线 了 。 不 幸 的 
是 到 了 生产 环境 中 ， 应 用 服务 器 访问 文件 时 偶尔 会 卡 一 下 ， 而 且 这 症状 
的 出 现 是 不 定时 的 、 稍 纵 即 逝 的 。 谁 也 不 知道 接 下 来 是 什么 时 候 ， 发 生 
在 哪 台 应 用 服务 器 上 。 经 验 丰 富 的 系统 管理 员 已 经 检查 过 应 用 服务 器 、 
文件 服务 器 和 网 络 设备 的 所 有 日 志 ， 可 惜 没有 发 现 有 价值 的 信息 

老 油条 的 工程 师 都 知道 ， 这 类 问题 是 最 “ 令 人 讨厌 "的 ， 因 为 既 无 报 
错 信息 ， 也 不 知道 何 时 会 重 现 ， 根 本 无 从 入 手 。 大 家 宁愿 处 理 丢 数据 或 
者 宕 机 的 紧急 事故 ， 也 不 愿意 去 接手 这 类 问题 。 可 怜 的 系统 管理 员 不 时 
被 他 的 用 户 埋怨 ， 然 后 再 把 压力 转移 到 售后 工程 师 身上 。 一 线 的 售后 工 














程 师 打 了 一 个 礼拜 没有 解决 ， 只 好 升级 到 二 线 。 二 线 工程 师 撑 了 一 个 礼 
拜 也 没有 收获 ， 最 终 找 到 了 我 。 大 家 可 以 想象 当时 那 位 系统 管理 员 已 经 
有 多 么 泪 丧 。 

问题 到 了 我 这 里 就 没 法 再 升级 了 ， 只 能 硬 着 头皮 接 下 来 。 我 是 这 样 

1， 访问 文 件 时 感到 卡 ， 可 能 是 文件 服务 器 负载 过 重 ， 导 致 了 响应 
慢 ; 也 可 能 是 网 络 拥塞 ， 发 生 了 连续 多 次 的 重 传 。 

2， 虽 然 无 法 预测 问题 发 生 的 时 间 ， 但 如 果 在 业务 繁忙 时 抓 个 网 络 
包 ， 应 该 多 少 能 看 到 一 入 。 

当 我 把 这 个 想法 告诉 系统 管理 员 时 ， 得 到 的 回答 却 让 我 颇 感 意 
外 :“ 存 储 上 的 网 络 包 我 已 经 抓 过 了 ， 分 析 下 来 一 点 问题 都 没有 。” 一 在 
我 以 往 接触 过 的 客户 中 ， 不 要 说 分 析 网 络 包 了 ， 很 多 人 连 抓 包 都 不 会 。 
这 个 分 析 可 靠 吗 ? 还 没 等 我 开口 ， 他 似乎 看 透 了 我 的 心思 , “网络 包 上 
传 到 FTP 了 ， 你 也 分 析 一 下 吧 。” 

用 Wireshark 打 开 网 络 包 之 后 ， 我 习惯 性 地 试 了 “性 能 问题 三 板斧 ”。 

1， 单 击 Statistics-->Summary。 从 Avg.MBit/sec 看 到 ， 那 段 时 间 的 流 
量 不 高 ， 所 以 该 存储 的 负担 似乎 并 不 重 〈 见 图 1) 。 











Display filter: none 
Tgnoredpackets: 0 
Traffic 


packets 


Between first and |ast packet 3.051 sec 


Avg, pacdketsjsec 4545,064 
Avg, packet size 854.255 bytes 
Bytes 11845100 
Avg. bytesjsec 3882643.601 
Avg, MBitjsec 31.061 











图 1 


2， 单 击 Statistics-->Service Response 


Time-->ONC-RPC-- 


>Program:NFS Version:3--> Create Stat， 可 以 看 到 各 项 操作 的 Service 
Response Time 都 不 错 ( 见 图 2) ， 这 进一步 说 明 该 存储 并 没有 过 载 。 


ONC-RPC Service Response Time statistics for NFS ve... 人 





ONC-RPC Service Response Time statistics For NFS version 3; tcpdump cap server cap 
Fiker: 





1 GETATTR 0.000000 
7 WRITE 000000 
4 ACCESS 0.000000 
2 SETATTR 0.000000 
3 LOOKUP 0.000000 





ndex « Procedurs 4 Cals > MnsRT 4 MaxSRT 4 Avg RT 


0.003907 
.0z3438 
0.003906 
0.000000 
0,000000 


1 
0.000019 
0.000410 
0.000012 
0.000000 
Di000000 











图 2 


La | 





3， 单 击 Analyze-->Expert Info Composite， 从 Error 和 Warning 里 都 没 
有 看 到 报错 ， 这 说 明 网 络 没有 问题 〈 见 图 3) 。 假 如 有 重 传 、 乱 序 之 类 


的 现象 ， 应 该 能 在 这 个 窗口 里 看 到 。 
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{0) IWarnings: 3(496) |Notes: 0(o) | chats: 0 (0) | Details; +96| 





























分 析 结 果 让 我 有 些 失望 一 这 个 系统 看 起 来 如 此 健康 ， 完 全 不 像 是 会 
卡 的 样子 ， 接 下 来 该 怎么 处 理 ? 看 来 一 定 要 在 出 问题 的 时 刻 抓 到 包 ， 舍 
此 之 外 ， 别 无 他 途 了 。 我 小 心 咒 地 给 管理 员 写 了 一 封 邮件 ， 把 分 析 结 
果 详 细 地 告诉 他 ， 并 且 提出 再 次 抓 包 的 请 求 。 

等 待 回复 时 很 是 志 下 ， 因 为 有 可 能 收 到 一 堆 抱 忽 ， 没 想到 等 来 的 竟 
是 一 个 惊喜 一 他 表示 过 到 一 位 懂 Wireshark 的 合作 者 非常 愉快 ， 并 且 准 备 
写 一 个 程序 来 抓 到 我 需要 的 包 。 这 个 程序 会 不 停 地 打开 文件 ， 当 出 现 卡 
的 症状 时 ， 记 录 时 间 点 并 且 自 动 停止 抓 包 。 磁 到 如 此 讲 道理 又 懂 技 术 的 
客户 ， 简 直 让 人 如 沐 春 风 。 
息 接 中 而 至 ， 几 天 后 网 络 包 真 的 抓 到 了 ， 还 记录 了 出 问题 的 时 
间 点 。 我 满怀 希望 地 又 试 了 三 板 借 ， 预 感 这 次 一 定 能 看 到 象 ， 比 
如 特别 长 的 Service Response Time 之 类 的 。 没 想到 一 番 忙 活 之 后 ， 竟 然 
和 之 前 的 分 析 结果 一 模 一 样 一 什么 迹象 都 没 看 到 。 

不 会 是 漏 抓 了 吧 ? 考虑 到 这 位 管理 员 的 表现 非常 靠 谱 ， 应 该 不 至 于 
犯 这 样 的 小 错误 ， 我 宁愿 相信 是 自己 看 得 不 够 仔细 。 就 在 此 时 ， 我 又 收 
到 一 封 邮件 。 原 来 他 也 分 析 完 了 ， 一 样 没有 发 现 什么 问题 。 同 时 也 强调 
自己 没有 漏 抓 ， 相 信 问 题 一 定 就 隐藏 在 包 里 。 

我 不 由 得 会 心 一 笑 : 好 默契 的 回复 ! 今天 算是 遇 到 对 手 了 ， 这 是 我 
工作 这 么 多 年 来 第 一 次 磁 到 如 此 厉害 的 角色 。 既 然 三 板斧 没有 用 ， 只 能 















法 了 。 我 ” 先 根据 问题 发 生 的 时 间 点 过 滤 出 前 后 2 秒 钟 的 所 有 
4 逐个 检查 。 这 下 果然 看 到 一 个 意 想不到 的 包 : 如 图 4 中 的 包 号 
440354 所 示 ，NFS 服 务 器 172.16.2.80 给 客户 端 172.16.2.102 发 了 一 个 
Portmap 请 求 ， 咨 询 其 NLM 进 程 的 端口 号 。 更 异常 的 是 这 个 请 求 竞 然 没 
有 得 到 回复 。 








NLM 我 是 听 说 过 的 ， 是 Network Lock Manager 的 
来 锁定 服务 器 上 的 文件 ， 从 而 避免 和 其 他 客户 端 发 生 
是 由 客户 端 查询 服务 器 的 NLM 端 口 ， 这 种 反方 向 的 状况 我 还 是 第 一 次 
见 到 。 这 个 Portmap 请 求 出 现在 这 里 虽然 有 点 突 无 ， 不 过 似乎 可 以 忽 
略 ， 因 为 我 想 不 出 它 跟 访问 文件 卡 有 什么 下 

遍历 了 所 有 包 之 后 ， 仍 然 一 无 所 获 。 我 几乎 想 放弃 了 ， 泪 表 的 感觉 
就 像 交卷 时 还 解 不 出 最 后 一 道 大 题 。 但 要 真正 放弃 又 不 甘心 ， 毕 竞投 入 
了 这 么 多 时 间 了 ， 而 且 也 对 不 起 这 么 配合 的 系统 管理 员 。 我 之 所 以 至 今 
对 这 个 案例 如 此 印象 深刻 ， 就 是 因为 工作 以 来 第 一 问题 这 么 环 
手 。 

纠结 了 一 天 之 后 ， 我 还 
个 包 。 既 然 目前 唯一 发 现 的 



























定 从 头 再 来 ， 这 次 要 更 细致 地 分 析 每 一 
常 就 是 那个 关于 NLM 的 Portmap 查 询 ， 那 









就 从 它 开始 吧 。 我 收集 了 一 些 资料 ， 重 温 了 一 遍 NLM 的 ] 理 ( 虽 
然 我 以 前 懂 过 ， 但 细节 性 的 东西 一 段 时 间 没 有 接触 ， 是 很 容易 忘记 


的 ) ， 然 后 把 NLM 工 作 过 程 总 结 如 下 。 
端 甲 ~“NLM_LOCK_MSG request ,NEFS 服 务 器 〈 甲 尝试 锁 
定 一 个 文件 ) 客户 端 甲 NLM_LOCK_RES granted -NEFS 服 务 器 〈 服 务 
器 同意 了 这 个 锁定 ) 

2. 客户 端 乙 ~NLM_LOCK_MSG request -, NFS 服 务 器 ( 乙 尝试 锁 
定 同一 个 文件 ) 





客户 端 乙 -NLM_LOCK_RES blocked -NFS 服务 器 (因为 该 文件 已 
经 被 甲 锁定 ， 所 以 服务 器 让 乙 等 着 ) 

3， 客户 端 甲 -NLM_UNLOCK_MSGrequest ~ NFS 服 务 器 〈 甲 尝试 
释放 锁 ) 客户 端 甲 _ NLM_UNLOCK_RES ”granted NFS 服务 器 (服务 
器 同意 释放 ) 

4， 客户 端 乙 NLM_GRANTED_MSG NFS 服务 器 (服务 器 主动 
把 锁 给 了 乙 ) 客户 端 乙 ,NLM_GRANTED_RES accept -NFS 服务 器 

( 乙 接受 了 ) 

Wireshark 里 看 到 的 那个 Portmap 请 求 ， 发 生 在 上 面 的 哪个 步骤 呢 ? 
应 该 在 第 三 步 和 第 四 步 之 间 。 就 在 找到 答案 的 一 刹那 ， 我 忱 然 大 悟 ， 一 
下 子 知道 问题 出 在 哪 了 。 

1. 第 三 步 之 后 ， 服 务 器 要 通过 Portmap 查 询 乙 的 NLM 端 口号 (也 就 
是 那个 诡异 的 包 ) ， 得 到 回复 后 才能 进入 第 四 步 。 

2. 假如 查询 端口 号 失败 ， 则 第 四 步 无 法 进行 ， 也 就 意味 着 服务 器 
没有 办 法 把 锁 给 乙 。 

3. 由 于 乙 得 不 到 锁 ， 所 以 只 能 继续 等 到 超时 为 止 。 这 对 于 应 用 程 
序 来 说 ， 就 是 卡 住 了 。 

4. 该 问题 只 发 生 在 多 个 客户 端 同时 访问 同一 文件 的 情况 下 ， 所 以 
表现 为 偶发 症状 。 

5， 乙 没有 响应 Portmap 查 询 ， 很 可 能 是 包 被 防火 墙 拦截 了 。 

我 来 不 及 写 邮 件 ， 就 迫不及待 地 抓 起 电话 ， 把 分 析 结果 告诉 南半球 
的 系统 管理 员 。 他 也 非常 兴奋 ， 很 快 就 修改 了 防火 墙 设置 ， 从 此 再 也 没 
有 用 户 报告 过 卡 的 现象 。 

事情 是 否 到 此 结束 了 呢 ? 这 个 症状 的 确 结束 了 。 不 过 用 户 又 反馈 了 

一 个 症状 ， 这 一 次 连 Wireshark 都 无 能 为 力 ， 最 后 还 是 Patrick 专 门 写 了 
和 解决 的 。 由 于 这 个 新 问题 没有 多 少 借鉴 意义 ， 所 以 本 书 略 过 不 
讲 。 但 是 写 脚本 所 用 到 的 tshark 工 具 非 常 有 用 ， 我 们 将 在 《学 无 止境 》 
一 文中 详 加 介绍 。 








学 无 止境 


当 你 用 Wireshark 解 决 了 一 个 又 一 个 难题 时 ， 再 谦虚 的 人 也 会 自信 心 
膨胀 ， 以 为 没有 什么 问题 是 解决 不 了 的 。 可 惜 这 只 是 错觉 ， 因 为 
Wireshark 的 确 有 它 的 应 用 极限 。 

我 是 什么 时 候 意识 到 这 一 点 的 呢 ? 大 概 两 年 前 我 碰 到 过 这 样 一 个 问 
题 : 接收 方 不 时 回复 "TCP ”Window=0” 给 发 送 方 ， 导 致 发 送 方 只 能 停 下 
来 等 待 。 整 个 传输 过 程 的 Sequence Number 曲 线 类 似 于 图 1 所 示 ， 其 中 水 
表明 接收 方 当时 正在 发 <TCP Window=0”。 
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为 了 给 客户 出 一 份 专业 的 分 析 报 告 ， 我 需要 统计 出 "TCP 
Window=0" 所 导致 的 停滞 总 共有 多 少 毫秒 。 通 过 图 1 的 横 坐 标 来 统计 显 
然 不 够 精确 ， 所 以 我 不 得 不 把 所 有 的 问题 包 过 滤 出 来 ， 逐 段 统计 停滞 的 
时 间 。 像 图 1 这 样 只 有 两 段 停滞 时 间 的 情况 还 好 ， 碰 到 有 几 十 段 的 时 候 





就 很 费时 了 。 

为 什么 我 要 人 工地 去 做 如 此 简单 的 重复 劳动 呢 ? 这 明显 更 适合 由 程 
序 来 完成 ， 但 是 Wireshark 没 有 提供 这 项 功能 。 几 天 后 我 随口 向 Patrick 提 
起 了 这 个 问题 ， 没 想到 他 立即 分 享 给 我 一 段 脚 本 。 我 只 需要 运行 以 下 命 
令 ， 该 脚本 就 可 以 把 总 停滞 时 间 计 算出 来 了 。 


S$ tshark -n ~r <tcpdump_name> -z 






‘proto,colinfo,frame.time_relative,frame.time_relative’ -z 
‘proto,colinfostcp.ack && (tcp srcport == <source_port> && tep.dstport == 
<destination_port>),tcp.ack’ -z ‘proto,colinfo,tcp.window_size && (tcp.srcport == 


<source_port> &a& tcp.dstport == <destination_port>),tcp.window_size' lawk -f 


cripe 
<script> ” 指 的 就 是 Patrick 分 享 的 脚本 。 由 于 篇 幅 所 限 ， 我 就 不 把 脚 
本 内 容 贴 出 来 了 ， 这 也 不 是 本 文 的 重点 。 我 们 真正 要 关注 的 是 上 面 用 到 


的 tshark 命 令 ， 它 相当 于 Wireshark 的 命令 行 版 本 。 和 图 形 界面 相 比 ， 命 
令 行 有 一 些 先天 的 优势 。 


。 如 上 例 所 示 ， 命 令 行 的 输出 可 以 通过 awk 之 类 的 方式 直接 处 理 ， 
这 是 图 形 界面 无 法 实现 的 。 有 一 些 高 手 之 所 以 说 tshark 的 功能 比 
Wireshark 强 大 ， 也 大 多 出 于 这 个 原因 。 


。 编辑 命令 虽然 费时 ， 但 是 编辑 好 之 后 可 以 反复 使 用 ， 甚 至 可 
成 一 个 软件 。 比 如 我 要 进行 性 能 调 优 ， 那 就 可 以 写 一 段 程 序 来 完 
成 本 书 多 次 提 到 过 的 三 板 人 稼 (Summary, Service Response Time 和 Expert 
Info ”Composite) 。 拿 到 一 个 性 能 相关 的 包 之 后 ， 直 接 运 行 该 程序 就 可 
以 得 到 三 板 短 结果， 这 比 起 用 Wireshark 快 多 了 。 





写 





: tshark 输 出 的 分 析 文本 大 多 可 以 直接 写 入 分 析 报告 中 ， 而 
Wireshark 生 成 不 了 这 样 的 报告 。 比 如 说 ， 我 想 统计 每 一 秒 钟 里 CIFS 操 


作 的 Service Response Time， 那 只 要 执行 以 下 命令 就 可 以 了 ， 如 下 例 所 
示 。 


tshark -n -qd -rtcpdump.cap -z "iostat,1.00,AVG(smb.time)smb.time” 





IO Statistics 


Interval: 1.000 secs 
Column #0: AVG(smb.time)smb.time 
| Column #0 

Time | AVG 

000.000-001.000 0.008 
001.000-002.000 0.007 
002.000-003.000 0.007 
003.000-004.000 0.007 
004.000-005.000 0.014 
005.000-006.000 0.001 
006.000-007.000 0.003 
007.000-008.000 0.005 
008.000-009.000 0.001 
009.000-010.000 0.001 
010.000-011.000 0.000 


011.000-012.000 0.000 


012.000-013.000 0.001 





这 个 结果 导入 Excel, 又 可 以 生成 各 种 报表 。 
。 和 其 他 软件 一 样 ， 命 令 行 往往 比 图 形 界面 快 得 多 。 比 如 现在 有 一 


个 很 大 的 包 需 要 用 IP 192.168.1.134 过 滤 ， 用 Wireshark 操 作 的 话 先 得 打开 
包 ， 再 用 ip.addr==192.168.1.134 过 滤 ， 最 后 保存 结果 。 这 三 个 步 又 都 很 
费时 ， 但 是 tshark 用 下 面 一 条 命令 就 可 以 完成 了 。 








tshark -r tcpdump.log -R "ip.addr==192.168.1.134 " -w tcpdump.log.filtered 

因为 上 述 这 些 优势 ， 一 位 工程 师 可 能 上 手 tshark 之 后 很 快 就 会 舍弃 
Wireshark。 是 的 ， 就 是 本 书 所 极力 推荐 的 Wireshark。 学 无 止境 ， 当 你 
掌握 了 足够 多 的 经 验 时 ， 就 完全 可 以 忽略 Wireshark 的 友好 界面 ， 转 而 追 
求 更 高 效 ， 也 更 复杂 的 tshark。 

tshark 的 入 门 并 不 难 。 在 安装 好 tshark 的 操作 系统 上 安装 Wireshark 
的 时 候 也 默认 安装 tshark) ， 执 行 “tshark -h” 就 可 以 阅读 使 用 说 明了 。 有 
Wireshark 经 验 的 读者 应 该 不 需要 我 来 解析 这 些 说 明 。 本 文 要 分 享 的 ， 是 
一 些 从 使 用 说 明 上 学 不 到 的 技巧 。 
1. 如 何在 Windows 命 令 行 中 搜索 tshark 的 输出 ? 

我 建议 安装 含有 qgrep 的 Windows Resource Kit， 然 后 就 可 以 用 qgrep 
来 搜索 了 。 如 图 2 所 示 ， 我 希望 搜索 mount.pcap 中 含有 “code” 字 符 串 的 一 
个 包 ， 就 可 以 用 qgrep 找 出 来 。 
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Dohook\book naterial WNFS> tshark ~r nount, Deap aorep 一 - 
和 nr Ef! /code a 
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CVhook\book noterial\NFS> 

























图 2 


2. 本 书 介绍 过 的 性 能 问题 三 板 荐 如 何 通过 命令 实现 ? 
a，Summary 可 以 通过 capinfos 命 令 查询 ， 如 图 3 所 示 。 
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图 3 


注意 ， 安装 Wireshark 的 时 候 ， 默 认 会 附带 capinfos 和 Editcap 等 工具 ， 除 
非 你 手动 勾 掉 它 们 。 

b. 获取 Service Response Time 则 要 视 不 同 协议 而 定 ， 比 如 NFS 协 议 
可 以 用 图 4 中 的 命令 。 


ET 











CAbookvbook materialWFSy tshark -n -9 ~r nount.pcan - “rpc,prograns™ 





ONC-RPC Program Statistjcs: 


Progran Wersion talls Min SRT Max SRT 。 Rug SRT 
portnao(100080) 2 ~ 2 9.800060 0.009089 .400000 
NES(1B8683) ， 3 & 9-868808 9-003987 0-689977 
MOUNT(1G8085) 3 2 98.889698 8-889080 .699900 
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图 4 


CIFS 协 议 只 要 把 图 4 中 双 引 号 中 的 内 容 改 为 “smbrtt,”* 即 可 ( 见 图 
Bs 








:Vbook\book_netarial\CIFS> tshark -n -9 - cifs.cap -z 





SH SRT Stotistics: 


Filter: 
Tamands Calls Min SRT Max SRT fug SRT 
te 了 
esd pngy -900075 -990 0 Bo033h 


-08090& 0-00090L 0 e009 
.080876 。 1.966989 0.003933 
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图 5 


c， 重 传 状况 要 用 到 tcp.analysis.retransmission 命 令 ， 注 意图 6 中 这 
84 个 frames 包 括 了 超时 重 传 和 快速 重 传 两 种 情况 。 
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3， 如 何 统计 一 个 包 里 的 所 有 对 话 ? 
“conv，xoxx" 就 可 以 做 到 ， 其 中 xxx 可 以 是 tcp、udp、eth 或 者 ip ( 见 


图 8) 。 
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4. 如 果 一 个 包 大 得 连 tshark 都 无 法 打开 ， 有 没有 办 法 切 分 成 多 个 ? 
有 办 法 ， 可 以 使 用 editcap 命 令 来 做 到 。 我 常用 "editcap <input file> 


<output file> -i <seconds per file>" 或 者 “editcap <input file> <output file> -c 


<packets per file>” 两 种 方式 。 图 9 所 示 的 例子 以 每 8 秒 为 间隔 切 分 了 这 个 
包 。 
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图 9 


除了 这 里 介绍 的 这 些 ，tshark 下 的 网 络 分 析 技 巧 还 有 很 多 。 利 用 管 
道 (Pipeline) 还 可 以 结合 awik、 sed 等 命令 实现 更 为 强大 的 功能 ， 值 得 
每 位 工程 师长 期 学 习 。 如 果 学 习 过 程 中 遇 到 任何 问题 ， 建 议 查 询 
Wireshark 的 官方 说 明 ， 地 址 为 http://www. wireshark.org/docs/man- 
pages/tshark.html。 就 算 我 这 样 的 老 用 户 还 经 常 能 从 中 学 到 新 知识 昵 。 


个 技术 男 的 自白 


当 我 在 台灯 下 写 到 这 一 篇 时 ， 不 由 得 想到 几 个 月 后 ， 另 一 束 灯 光 下 
的 读者 正 翻 到 这 一 页 ， 跨 越 时 空 的 交流 真是 奇妙 。 我 要 感谢 你 购买 本 书 
并 坚持 读 到 这 里 。 作 为 小 众 图 书 的 作者 ， 我 最 珍视 的 是 读者 对 本 书 内 容 
的 喜爱 ， 也 希望 你 在 阅读 中 有 所 收获 。 最 后 一 篇 ， 就 让 我 们 忘记 那些 乏 
味 的 术语 ， 谈 些 有 趣 一 点 的 话题 吧 。 

关于 技术 ， 当 下 的 热点 是 Full Stack Engineer， 翻 译 过 来 就 是 全 栈 工 
程 师 。 我 的 理解 就 是 从 前 端 到 后 端 ， 从 软件 到 硬件 都 懂 的 通才 。 其 实在 







































全 栈 的 概念 出 现 之 前 ， 关 于 技术 广度 和 深度 的 讨论 就 从 来 没有 停止 过 
在 时 间 有 限 的 情况 下 ， 究 竟 是 应 该 扩展 广度 ， 各 种 技术 都 去 涉猎 ， 还 是 
把 所 有 精力 都 投入 在 一 门 技术 上 呢 ? 我 个 人 更 倾向 于 后 者 ， 因 为 当 某 项 
技术 学 到 了 较 深 的 程度 后 ， 眼 界 就 不 一 样 了 ， 再 学 其 他 的 技术 也 容易 达 
到 类 似 境界 。 以 本 书 提 到 的 协议 为 例 ， 如 果 你 已 经 精通 CIFS， 那 很 可 能 
稍 加 点 拨 就 能 完全 理解 NFES， 同 样 如 果 你 理解 了 网 络 的 分 层 和 流 控 ， 再 
学 习 存 储 的 层次 和 缓存 也 比较 容易 。 但 假如 一 个 人 连 最 擅长 的 技术 都 线 
尝 辑 止 ， 那 学 习 其 他 技术 也 会 停留 在 表面 上 。 我 有 位 技术 出 色 的 朋友 用 
过 一 个 生动 的 比喻 来 说 明 这 个 问题 : 技术 深度 和 广度 的 关系 ， 就 像 登山 
时 的 高 度 和 视野 。 假 如 你 疏 到 半山 腰 就 停 下 来 陇 望 ， 就 只 能 看 到 一 半 的 
视野 ， 但 如 果 埋 头 朴 到 山顶 ， 一 抬头 便 是 无 边 的 风景 。 

关于 薪水 ， 是 很 多 工程 师 自 怨 自 艾 的 口水 话题 。 不 知道 从 何 时 开 
始 ， 大 家 似乎 都 觉得 自己 被 亏 待 了 。 微 博 上 流传 各 种 自嘲 的 段子 ， 比 
如 “今天 你 编程 时 流 的 汗 ， 就 是 当初 填 志愿 时 脑子 进 的 水 ”我 也 曾经 开 
玩笑 说 自己 的 英文 名 是 "Low ”Payman”; 我 有 位 年 薪 40 多 万 的 同事 
MSN 签名 是 “少壮 不 努力 ， 老 大 干 IT”;， 还 有 一 种 流行 的 说 法 ， 认 为 在 中 
国 不 适合 走 技术 路 线 ， 否 则 为 什么 在 国外 才 有 白 发 苍苍 的 老 工程 师 ? 看 
过 太 多 类 似 段子 之 后 ， 我 觉得 这 种 群体 心态 已 经 有 点 矫情 了 。 无 论 在 什 
么 国家 ， 工 程 师 都 排 不 上 收入 最 高 的 群体 。 相 比 国外 ， 中 国 工程 师 “地 
位 已 经 算 高 了 ， 比 如 美国 工程 师 的 收入 就 完全 比 不 上 律师 和 医生 等 职 
业 ， 但 在 中 国 就 未 必 是 这 样 。 中 国 也 不 是 没有 老 工程 师 的 发 展 空间 ， 而 
是 因为 第 一 批 工 程 师 还 没有 变 老 。 热 爱 自嘲 的 人 其 实 也 心 知 肚 明 一 他 们 
的 薪水 完全 足以 维持 体面 的 生活 ， 比 如 那 位 "少壮 不 努力 ”的 同学 ， 一 直 
在 上 海 这 个 大 染 缸 过 着 纸 酬 金 迷 的 日 子 。 而 真正 徒 伤 翡 的 职业 ， 丽 怕 根 
本 没有 心情 自我 编排 ……. 我 认为 自嘲 是 一 种 难得 的 幽默 ， 但 是 当 一 个 群 
体 的 自嘲 都 专注 在 薪水 上 ， 听 上 去 就 有 点 无 聊 。 

关于 办 公 室 政治 ， 那 真 不 是 属于 我 们 的 战场 。 孟 子 的 “ 劳 心 者 治 
人 ， 劳 力 者 治 于 人 ”对 中 国 影响 太 过 深远 ， 我 不 止 一 位 朋友 从 技术 路 线 












改 走 管理 路 线 的 时 候 ， 以 这 句 话 作为 座右铭 。 而 在 我 看 来 ， 自 从 人 类 进 
化 到 可 以 坐 在 办 公 室 里 “劳力 "之 后 ,“ 劳 心 "就 缺乏 吸引 力 了 。 人 类 比 电 
脑 狐 诈 太 多 ， 还 是 管 电脑 省 心 。 我 们 就 把 办 公 室 政治 这 样 劳 心 的 活 儿 留 
给 走 管理 路 线 的 同事 吧 ， 只 要 不 站 队 不 说 是 非 ， 用 技术 帮助 所 有 人 ， 自 
然 会 成 为 单位 里 最 受 尊敬 的 人 

关于 创业 ， 我 想 没有 哪个 行业 比 IT 界 更 热衷 于 此 了 。 或 许 是 因为 这 
一 行 有 过 太 多 轻易 成 功 的 故事 ， 所 以 工程 师 们 益 邦 欲 动 ， 仿 佛 每 个 人 都 
在 想 ， 连 一 个 毫 无 技术 含量 的 导航 网 站 都 能 被 高 价 收 购 ， 满 腹 才华 的 我 
能 干 出 怎样 惊天 动 地 的 事业 ? 于 是 有 志 者 开始 对 职业 不 满 ， 觉 得 无 论 如 
何 应 该 出 去 间 闻 ， 寻 找 自己 被 封印 的 灵魂 ， 他 们 振臂 一 挥 ， 豪 气 万 丈 地 
说 “ 走 ， 创 业 去 ! ”其 实 我 个 人 是 非常 羡慕 这 样 充满 激情 的 人 生 的 ， 无 奈 
看 过 太 多 失败 的 例子 ， 总 觉得 创业 的 成 功率 被 高 估 。 有 位 朋友 到 福建 承 
包 一 片山 林 之 后 ， 很 快 发 现 这 东西 并 没有 想象 中 那么 赚钱 。 终 于 在 花 光 
所 有 积蓄 之 后 ， 荫 发 了 “不 如 归 去 ”的 念头 。 虽 然 听 上 去 颇 有 禅 意 ， 其 实 
心里 还 是 很 局 悔 的 ， 最 后 不 仅 回 到 原来 公司 ， 还 坐 到 原来 的 位 子 上 。 当 
然 成 功 者 也 是 有 的 ， 不 要 妨 嫉 他 们 ， 因 为 这 是 冒 着 风险 得 到 的 

关于 跳槽 ， 除 了 印度 之 外 ， 我 还 没有 见 过 比 中 国 工程 师 更 爱 跳槽 的 
群体 。 由 于 每 跳槽 一 次 基本 能 加 薪 30%， 的 确 让 人 难以 淡定 地 呆 在 一 个 
岗位 上 。 不 过 在 我 看 来 ， 频 繁 跳槽 所 付出 的 代价 恐怕 高 于 这 点 收益 ， 因 
为 很 快 就 会 发 现 无 处 可 跳 了 。 而 且 更 大 的 副作用 是 ， 多 次 换 工 作 导致 了 
各 种 技术 都 只 学 到 皮毛 ， 等 醒悟 过 来 已 经 晚 了 。 如 果 某 个 新 职位 吸引 你 
的 亮点 只 是 加 薪 ， 我 建议 三 思 而 行 。 
关于 理科 生 的 骄傲 ， 在 工程 师 群 体 中 ， 有 小 部 分 年 轻 人 至 今 还 保持 
着 源 自 高 ”中 理科 班 的 自豪 感 。 比 如 看 到 一 本 精彩 的 科幻 小 说 ， 便 觉得 
文科 生 不 可 能 懂 ， 如 果 新 来 的 领导 不 是 理工 科 出 身 ， 就 感叹 所 处 的 并 非 
技术 驱动 型 公司 ， 最 让 我 吃惊 的 一 次 ， 是 一 位 DBA 质 疑 不 懂 技 术 的 销售 
人 员 为 什么 地 位 那么 高 。 这 种 错误 的 认 知 显然 源 于 交际 圈子 的 狭隘 ， 对 
非 技术 人 员 的 能 力 缺 乏 了 解 。 其 实 你 在 调试 代码 时 ， 他 们 同样 在 推 殴 文 












案 ; 你 在 餐桌 上 只 管 品 菜 海 伊 ， 他 们 却 要 左右 逢 源 ， 让 所 有 宾客 感到 满 
意 ; 你 结交 朋友 只 看 心情 喜好 ， 他 们 在 朋友 圈 里 只 说 < 正确? 的话， 永远 
如 沐 春风 地 倾听 :你 在 内 部 会 议 上 发 言 都 显 拘谨 ， 他 们 面 对 突 如 其 来 的 
话筒 也 能 侃侃 而 谈 ,…… 毫 无 疑问 ， 非 技术 工作 的 “技术 含量 "一 点 都 不 
低 。 幸 好 随 着 阅历 的 增长 ， 大 多 数理 科 生 都 能 改 掉 这 个 毛病 。 

关于 生活 ，IT 男 们 已 经 被 打上 了 太 多 标签 ， 宅 、 木 讷 、 生 活 简单 
这 当然 是 一 种 偏见 ， 至 少 我 身边 的 朋友 就 不 是 这 样 。 不 过 比 起 国外 的 工 
程 师 群体 ， 我 们 的 业余 生活 似乎 是 单调 了 些 。 比 如 与 我 合作 多 年 的 国外 
同事 中 ， 有 组 乐队 的 、 当 冰球 教练 的 、 玩 帆船 的 、DIY 花 园 的 .…… 有 些 
朋友 对 此 羡慕 不 已 ， 以 为 发 达 国 家 才 玩 得 起 多 样 化 的 娱乐 ， 对 此 我 不 敢 
苟同 。 比 如 中 国学 习 乐 器 的 人 数 早 就 全 球 第 一 ， 在 我 屈指 可 数 的 女 同事 
中 ， 至 少 有 三 位 在 小 时 候 考 过 钢琴 十 级 。 我 所 住 的 小 区 一 楼 都 配 有 朝 南 
的 大 院子 ， 园 艺 条 件 极 佳 ， 只 是 户 户 都 铺 砖 硬化 了 .…… 所 以 细 想 起 来 
经 济 上 并 不 是 主因 ， 只 是 不 够 热情 罢了 。 工 程 师 本 来 就 是 最 擅长 DIY 的 
群体 ， 只 要 行动 起 来 ， 完 全 可 以 让 业余 生活 更 加 丰富 ， 成 为 一 个 更 加 有 
趣 的 人 。 








